原文: AI画图养成记(三):邪修图生文!1秒反推提示词,完美复刻大片风格
微信公众号 · gzh · 2026-01-06

摘要: 用「图生文」让AI反推图片特征标签生成提示词,再组合原图垫图,实现风格和构图的精准复刻。


上一篇讲

图生图

AI画图养成记(二):图生图为什么“一眼假”?3招拯救翻车现场

),了解到AI画图在物理逻辑上面还有改进的空间。

今天这篇,我们讲一个画图的邪修技巧——

图生文(Image to Text)

我最近在学画图,当看到一张好看的图时候,总会想这张图是怎么画出来的。

能不能用我们之前的公式(

AI画图养成记(一):为什么你画的是“人工智障”?一套万能SOP公式,废片变大片?

):

Prompt = 画质词 + 主体描述 + 环境氛围 + 构图

运镜

+ 风格参考

如果我也要画一张,

提示词

是怎么样子呢?当我经历过上百次的尝试后,我得出了一个邪修办法。

图生文,

让AI来帮你

“反向编译”

图片,用AI的眼睛来破解AI,把图片丢给GPT-4o、豆包、Kimi,一秒钟把好图的提示词全部拿过来!

一、 核心原理:人类看图是“故事”,AI 看到的是“数据”

我们说下这里的原理。为什么我们人类描述图片,永远描述不到点子上? 因为

人眼

AI 眼

,完全是两个不同的频道。

人类的“过滤镜”

人类是大脑进化了几百万年的生物,我们看图走的是“

感性路线

我们会自动过滤掉那些“枯燥的技术参数”,只保留“

核心内容

”和“

情绪

”。

举个例子,看到一张雨中哭泣的女孩照片:

你的大脑:

“哇,她好伤心,这雨下得让人心碎,像失恋了一样。”

你的描述:

悲伤的女孩在雨中哭泣,氛围很压抑。

AI 的“数据眼”

AI(这里主要指

CLIP 模型,

AI笔记:大白话说什么是CLIP?打通文字与图像的“跨界翻译官”

)脑里装的都是数据。它根本不懂什么是“伤心”,它只认“特征标签”

在 AI 眼里,这张图上并没有什么“悲伤的故事”,而是飘满了密密麻麻的、你肉眼看不见的“特征标签”:

Volumetric lighting

(体积光/丁达尔效应)

Bokeh

(焦外虚化)

35mm lens

(35毫米人文镜头)

f/1.8

(大光圈)

Cyberpunk color grading

(赛博朋克调色)

Octane render

(OC渲染器质感)

Ray tracing

(光线追踪)

Wet surface reflections

(湿润表面反射)

这些标签都是你

叫不出名字、甚至是些没见过的生僻专业词

,这些词决定了画面的光影、质感和风格。你只描述了“女孩哭”,AI 就给你画个“卡通女孩哭”或者“油画女孩哭”,因为它不知道你要的是“35mm 镜头下的电影质感”。

这就是“图生文(Image to Text)”存在的意义:

我们用AI分析图片内部,把这些隐藏的“

特征标签

”全都找出来,翻译成我们能用的提示词。

二、 实操演练:请个AI来帮忙

一年前想

反推提示词

,门槛挺高的。你得去用 Stable Diffusion 的 Tagger 插件,操作提麻烦的。

现在很多大模型(LLM)都具备多模态能力。国产的

豆包、Kimi、智谱清言

,或者国外的 GPT-4o,它们都能做到图生文了。

怎么操作?发张图说“描述一下提示词”,那出来的词大概率也是用不了的。

你需要一套标准化的

SOP

(操作流程)。

第一步:准备大片图

假设你看到了一张非常炫酷的“

月球上的橘猫探险家

”,你想复刻这个风格。先把图保存到手机或电脑里,比如这张。

第二步:写上这个提示词

打开你常用的 AI 对话工具比如豆包、Kimi,丢上你的图片。请直接复制下面这段话,发送给 AI:

提示词: “你现在是一位精通 AI 绘画(即梦/Stable Diffusion)的资深提示词专家。你的任务是帮助我通过反向工程,复刻这张图片的风格。

请你仔细观察这张上传的图片,从以下几个维度进行深度分析:

1

、主体特征(人物、服装细节、动作姿态)

2

、环境与构图(背景元素、视角、运镜方式)

3

、光影与色彩(光源类型、色调、明暗对比)

4

、材质与质感(是胶片感?

3

D渲染感?还是水墨笔触?)

5

、关键艺术风格词(比如 赛博朋克, 敦煌配色, 虚幻

5

渲染 等)

最终输出要求: 请无需过多解释,直接给我输出一段可以直接用于 AI 绘画的提示词(中英文对照)。

格式建议:

[主体描述]

,

[环境描述]

,

[风格关键词]

,

[光影与镜头参数]

请确保关键词精准、丰富,能还原图片的‘神韵’。”

第三步:生成提示词,出图

AI 会帮你把图片的标签都整理出来。 词里包含了大量你没见过的词汇: 比如它会写出:

超现实主义 (Surrealism)

柔和的光线 (Soft lighting)

电影镜头感 (Cinematic feel)

3D渲染(3D rendering

把这段生成的提示词复制下来,给到生图平台,出图如下:

三、 避坑指南:为什么出图跟原图不一样?

你会发现,直接拿反编译出来的提示词出图,还是跟原图不一样。比如

“风格是像了,但构图不一样的?”

原图:

一只橘猫宇航员

在月球表面,头盔映着星光,背景是浩瀚星空和蓝色地球,营造出宏大的太空探险氛围。

你的图:

一只橘猫宇航员

站立

在月球表面,头盔映出星空,背景是辽阔的宇宙和蔚蓝的地球,营造出一种壮丽的太空探险场景。

这里说一个概念:

信息熵

(Information

Entropy

),

可以理解为

“信息的不确定程度”或者 “AI 瞎蒙的程度”。

图生文再到文生图,这个过程就像“传话游戏”,在这个过程中就会有信息丢失,在不具备确定信息的情况下,AI仅靠已知的信息进行指导恢复。流程如下:

降维打击(图生文)

一张图片,包含的信息量是巨大的。几千万个像素,记录了每一个毛发的位置、主体的动作、光影的角度。 当我们把它强制压缩成

几百个汉字

时,

99% 的空间结构信息

都被丢掉了。文字只能描述“大概”,无法描述“精确”。文中只能说“有只橘猫”,但究竟是坐着还是站着?这里就描述不清了,原图就会有信息丢失。

盲人摸象(文生图)

当你拿着这已经丢失信息的

几百个字

去生成新图时,AI 面对那些丢失的信息,只能开启“

随机脑补模式

”。既然你没说姿势是怎么样的,那我就随机;既然你没说光影怎么样,那我就随机画。

结论:单纯的“图生文”,只能学到原图的“画风”和“调色”,学不到原图的“精准构图”和“人物姿态”。

四、 终极方案:SOP 组合拳

其实按照图生文的方法,还是会出一张比较不错的图,毕竟可以存在多样性。

假如你想要完美复刻一张图,单纯靠图生文是不够的。我们要把前两篇文章的知识串起来,用一套组合拳。

万能复刻公式:

反推的提示词 + 原图做垫图 = 完美复刻

操作流程:

第一步:复制 Prompt

按照前面的方法,用豆包/Kimi 反推图片的关键词,复制下来。这保证了你的图“

光影、质感、风格

”是对的。

第二步:上传参考图

比如打开即梦的创作界面。 在输入框下方,把那张原图上传上去。

第三步:合体

把反推的提示词粘贴进输入框,点击“生成”。

你会发现,这次生成的图,几乎保留了原图原本的构图张力,又拥有了那令人羡慕的高级质感。

五、 总结

图生文

,一个快速生图的邪修办法。

别用人眼猜,要用 AI 抄。

看到喜欢的图,别自己瞎琢磨“这是啥风格”。丢给AI把

光影、材质、镜头

等等给你找出来。

光有词不行,还得有垫图。

文字的信息量太低(信息熵丢失),光靠反推的词,画出来的构图不一定是你想要的。把

原图

也搞过来,强行固定住构图。

组合拳才是王道反推的提示词 + 原图做垫图 = 完美复刻。

如果你懂得文生图、图生图、图生文的用法,那已经击败了 90% 的 AI 绘画玩家。

下一篇我们讲一些复杂场景,如果你想

做个连载漫画、绘本,或者打造一个自己的

IP

形象

呢?你会发现 AI 记性很差,每次画出来的人长得都不一样。我们后面聊角色一致性。

如果觉得这篇文章对你有帮助,别忘了点赞、分享,并关注我的公众号。

往期推荐:

AI画图养成记(二):图生图为什么“一眼假”?3招拯救翻车现场

AI画图养成记(一):为什么你画的是“人工智障”?一套万能SOP公式,废片变大片?

AI笔记:大白话说Diffusion Model,AI画图的终极艺术家

AI笔记:大白话说VAE,AI画图的创作家

AI笔记:大白话说什么是CLIP?打通文字与图像的“跨界翻译官”

需求 # 目的 作用 实质 形式
输入 类型 来源
实现 外部工具 动作 指令
输出 类型 去处
高亮推断 点击列名 ↔ 显示/隐藏 · 点击组名 ↔ 整组切换 · 「推」角标 hover 看推断理由
工序 图生文提示词反推(基础版) #目的: 用多模态LLM配合SOP分析提示词对目标图进行特征反推,生成可用AI绘画提示词,再以提示词生成风格相近图片 类别: 产物创造 #平台: 微信公众号 · #作者: gzh · case: C_gzh_3a1fb7ba
输入
目标参考图 待复刻的大片图
返回
内容类型/半成品/原子/样图
需求 输入 实现 输出
# 目的 作用 实质 形式 类型 来源 外部工具 动作 指令 类型 去处
s0
人工 上传 目标参考图 作为工序起始输入
预准备目标参考图<月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球>← 工序输入human获取/录入/上传
s1
豆包 反推目标参考图 提取隐含特征标签,得到 提示词
预处理图片目标参考图<月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球>豆包提取/化学提取/反推程序控制类型/指令/提示词s1o1 <占位>(原文未提供)→ s2
程序控制类型/指令/提示词你现在是一位精通 AI 绘画(即梦/Stable Diffusion)的资深提示词专家。你的任务是帮助我通过反向工程,复刻这张图片的风格。 请你仔细观察这张上传的图片,从以下几个维度进行深度分析: 1 、主体特征(人物、服装细节、动作姿态) 2 、环境与构图(背景元素、视角、运镜方式) 3 、光影与色彩(光源类型、色调、明暗对比) 4 、材质与质感(是胶片感? 3 D渲染感?还是水墨笔触?) 5 、关键艺术风格词(比如 赛博朋克, 敦煌配色, 虚幻 5 渲染 等) 最终输出要求: 请无需过多解释,直接给我输出一段可以直接用于 AI 绘画的提示词(中英文对照)。  格式建议: [主体描述] ,  [环境描述] ,  [风格关键词] ,  [光影与镜头参数]  请确保关键词精准、丰富,能还原图片的
s2
提示词 输入 (AI生图工具) 元素生成 得到 样图
主体生成图片程序控制类型/指令/提示词<占位>(原文未提供)← s1o1(AI生图工具)生成/元素生成内容类型/半成品/原子/样图s2o1 <AI文生图:橘猫宇航员站立于月球,背景宇宙和地球,与原图构图有偏差>
工序 组合拳完美复刻(进阶版) #目的: 在图生文反推提示词基础上,将原图同时作垫图输入AI生图工具,实现风格与构图双维度精准复刻 类别: 产物创造 #平台: 微信公众号 · #作者: gzh · case: C_gzh_3a1fb7ba
输入
目标参考图 待复刻的大片图
返回
内容类型/成品/成品图
需求 输入 实现 输出
# 目的 作用 实质 形式 类型 来源 外部工具 动作 指令 类型 去处
s0
人工 上传 目标参考图 作为工序起始输入
预准备目标参考图<月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球>← 工序输入human获取/录入/上传
s1
豆包 反推目标参考图 提取隐含特征标签,得到 提示词
预处理图片目标参考图<月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球>豆包提取/化学提取/反推程序控制类型/指令/提示词s1o1 <占位>(原文未提供)→ s2
程序控制类型/指令/提示词你现在是一位精通 AI 绘画(即梦/Stable Diffusion)的资深提示词专家。你的任务是帮助我通过反向工程,复刻这张图片的风格。 请你仔细观察这张上传的图片,从以下几个维度进行深度分析: 1 、主体特征(人物、服装细节、动作姿态) 2 、环境与构图(背景元素、视角、运镜方式) 3 、光影与色彩(光源类型、色调、明暗对比) 4 、材质与质感(是胶片感? 3 D渲染感?还是水墨笔触?) 5 、关键艺术风格词(比如 赛博朋克, 敦煌配色, 虚幻 5 渲染 等) 最终输出要求: 请无需过多解释,直接给我输出一段可以直接用于 AI 绘画的提示词(中英文对照)。  格式建议: [主体描述] ,  [环境描述] ,  [风格关键词] ,  [光影与镜头参数]  请确保关键词精准、丰富,能还原图片的
s2
提示词 结合 参考图 垫图,用 即梦 元素生成 得到 成品图
主体生成图片程序控制类型/指令/提示词<占位>(原文未提供)← s1o1即梦生成/元素生成内容类型/成品/成品图s2o1 <反推提示词+原图垫图生成的橘猫宇航员坐姿图,构图接近原图,高级质感>
内容类型/素材/化学变化/参考图<月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球>