摘要: 用「图生文」让AI反推图片特征标签生成提示词,再组合原图垫图,实现风格和构图的精准复刻。
上一篇讲
图生图
(
AI画图养成记(二):图生图为什么“一眼假”?3招拯救翻车现场
),了解到AI画图在物理逻辑上面还有改进的空间。
今天这篇,我们讲一个画图的邪修技巧——
图生文(Image to Text)
。
我最近在学画图,当看到一张好看的图时候,总会想这张图是怎么画出来的。
能不能用我们之前的公式(
AI画图养成记(一):为什么你画的是“人工智障”?一套万能SOP公式,废片变大片?
):
Prompt = 画质词 + 主体描述 + 环境氛围 + 构图
运镜
+ 风格参考
如果我也要画一张,
提示词
是怎么样子呢?当我经历过上百次的尝试后,我得出了一个邪修办法。
图生文,
让AI来帮你
“反向编译”
图片,用AI的眼睛来破解AI,把图片丢给GPT-4o、豆包、Kimi,一秒钟把好图的提示词全部拿过来!
一、 核心原理:人类看图是“故事”,AI 看到的是“数据”
我们说下这里的原理。为什么我们人类描述图片,永远描述不到点子上? 因为
人眼
和
AI 眼
,完全是两个不同的频道。
人类的“过滤镜”
人类是大脑进化了几百万年的生物,我们看图走的是“
感性路线
”
。
我们会自动过滤掉那些“枯燥的技术参数”,只保留“
核心内容
”和“
情绪
”。
举个例子,看到一张雨中哭泣的女孩照片:
你的大脑:
“哇,她好伤心,这雨下得让人心碎,像失恋了一样。”
你的描述:
悲伤的女孩在雨中哭泣,氛围很压抑。
AI 的“数据眼”
AI(这里主要指
CLIP 模型,
AI笔记:大白话说什么是CLIP?打通文字与图像的“跨界翻译官”
)脑里装的都是数据。它根本不懂什么是“伤心”,它只认“特征标签”
。
在 AI 眼里,这张图上并没有什么“悲伤的故事”,而是飘满了密密麻麻的、你肉眼看不见的“特征标签”:
Volumetric lighting
(体积光/丁达尔效应)
Bokeh
(焦外虚化)
35mm lens
(35毫米人文镜头)
f/1.8
(大光圈)
Cyberpunk color grading
(赛博朋克调色)
Octane render
(OC渲染器质感)
Ray tracing
(光线追踪)
Wet surface reflections
(湿润表面反射)
这些标签都是你
叫不出名字、甚至是些没见过的生僻专业词
,这些词决定了画面的光影、质感和风格。你只描述了“女孩哭”,AI 就给你画个“卡通女孩哭”或者“油画女孩哭”,因为它不知道你要的是“35mm 镜头下的电影质感”。
这就是“图生文(Image to Text)”存在的意义:
我们用AI分析图片内部,把这些隐藏的“
特征标签
”全都找出来,翻译成我们能用的提示词。
二、 实操演练:请个AI来帮忙
一年前想
反推提示词
,门槛挺高的。你得去用 Stable Diffusion 的 Tagger 插件,操作提麻烦的。
现在很多大模型(LLM)都具备多模态能力。国产的
豆包、Kimi、智谱清言
,或者国外的 GPT-4o,它们都能做到图生文了。
怎么操作?发张图说“描述一下提示词”,那出来的词大概率也是用不了的。
你需要一套标准化的
SOP
(操作流程)。
第一步:准备大片图
假设你看到了一张非常炫酷的“
月球上的橘猫探险家
”,你想复刻这个风格。先把图保存到手机或电脑里,比如这张。
第二步:写上这个提示词
打开你常用的 AI 对话工具比如豆包、Kimi,丢上你的图片。请直接复制下面这段话,发送给 AI:
提示词: “你现在是一位精通 AI 绘画(即梦/Stable Diffusion)的资深提示词专家。你的任务是帮助我通过反向工程,复刻这张图片的风格。
请你仔细观察这张上传的图片,从以下几个维度进行深度分析:
1
、主体特征(人物、服装细节、动作姿态)
2
、环境与构图(背景元素、视角、运镜方式)
3
、光影与色彩(光源类型、色调、明暗对比)
4
、材质与质感(是胶片感?
3
D渲染感?还是水墨笔触?)
5
、关键艺术风格词(比如 赛博朋克, 敦煌配色, 虚幻
5
渲染 等)
最终输出要求: 请无需过多解释,直接给我输出一段可以直接用于 AI 绘画的提示词(中英文对照)。
格式建议:
[主体描述]
,
[环境描述]
,
[风格关键词]
,
[光影与镜头参数]
请确保关键词精准、丰富,能还原图片的‘神韵’。”
第三步:生成提示词,出图
AI 会帮你把图片的标签都整理出来。 词里包含了大量你没见过的词汇: 比如它会写出:
超现实主义 (Surrealism)
、
柔和的光线 (Soft lighting)
、
电影镜头感 (Cinematic feel)
、
3D渲染(3D rendering
)
。
把这段生成的提示词复制下来,给到生图平台,出图如下:
三、 避坑指南:为什么出图跟原图不一样?
你会发现,直接拿反编译出来的提示词出图,还是跟原图不一样。比如
“风格是像了,但构图不一样的?”
原图:
一只橘猫宇航员
坐
在月球表面,头盔映着星光,背景是浩瀚星空和蓝色地球,营造出宏大的太空探险氛围。
你的图:
一只橘猫宇航员
站立
在月球表面,头盔映出星空,背景是辽阔的宇宙和蔚蓝的地球,营造出一种壮丽的太空探险场景。
这里说一个概念:
信息熵
(Information
Entropy
),
可以理解为
“信息的不确定程度”或者 “AI 瞎蒙的程度”。
图生文再到文生图,这个过程就像“传话游戏”,在这个过程中就会有信息丢失,在不具备确定信息的情况下,AI仅靠已知的信息进行指导恢复。流程如下:
降维打击(图生文)
一张图片,包含的信息量是巨大的。几千万个像素,记录了每一个毛发的位置、主体的动作、光影的角度。 当我们把它强制压缩成
几百个汉字
时,
99% 的空间结构信息
都被丢掉了。文字只能描述“大概”,无法描述“精确”。文中只能说“有只橘猫”,但究竟是坐着还是站着?这里就描述不清了,原图就会有信息丢失。
盲人摸象(文生图)
当你拿着这已经丢失信息的
几百个字
去生成新图时,AI 面对那些丢失的信息,只能开启“
随机脑补模式
”。既然你没说姿势是怎么样的,那我就随机;既然你没说光影怎么样,那我就随机画。
结论:单纯的“图生文”,只能学到原图的“画风”和“调色”,学不到原图的“精准构图”和“人物姿态”。
四、 终极方案:SOP 组合拳
其实按照图生文的方法,还是会出一张比较不错的图,毕竟可以存在多样性。
假如你想要完美复刻一张图,单纯靠图生文是不够的。我们要把前两篇文章的知识串起来,用一套组合拳。
万能复刻公式:
反推的提示词 + 原图做垫图 = 完美复刻
操作流程:
第一步:复制 Prompt
按照前面的方法,用豆包/Kimi 反推图片的关键词,复制下来。这保证了你的图“
光影、质感、风格
”是对的。
第二步:上传参考图
比如打开即梦的创作界面。 在输入框下方,把那张原图上传上去。
第三步:合体
把反推的提示词粘贴进输入框,点击“生成”。
你会发现,这次生成的图,几乎保留了原图原本的构图张力,又拥有了那令人羡慕的高级质感。
五、 总结
图生文
,一个快速生图的邪修办法。
别用人眼猜,要用 AI 抄。
看到喜欢的图,别自己瞎琢磨“这是啥风格”。丢给AI把
光影、材质、镜头
等等给你找出来。
光有词不行,还得有垫图。
文字的信息量太低(信息熵丢失),光靠反推的词,画出来的构图不一定是你想要的。把
原图
也搞过来,强行固定住构图。
组合拳才是王道反推的提示词 + 原图做垫图 = 完美复刻。
如果你懂得文生图、图生图、图生文的用法,那已经击败了 90% 的 AI 绘画玩家。
下一篇我们讲一些复杂场景,如果你想
做个连载漫画、绘本,或者打造一个自己的
IP
形象
呢?你会发现 AI 记性很差,每次画出来的人长得都不一样。我们后面聊角色一致性。
如果觉得这篇文章对你有帮助,别忘了点赞、分享,并关注我的公众号。
往期推荐:
AI画图养成记(二):图生图为什么“一眼假”?3招拯救翻车现场
AI画图养成记(一):为什么你画的是“人工智障”?一套万能SOP公式,废片变大片?
AI笔记:大白话说Diffusion Model,AI画图的终极艺术家
AI笔记:大白话说VAE,AI画图的创作家
AI笔记:大白话说什么是CLIP?打通文字与图像的“跨界翻译官”
| 需求 | 输入 | 实现 | 输出 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| # | 目的 | 作用 | 实质 | 形式 | 类型 | 值 | 来源 | 外部工具 | 动作 | 指令 | 类型 | 值 | 去处 |
| s0 | 人工 上传 目标参考图 作为工序起始输入 | 预准备 | 目标参考图 | <月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球> | ← 工序输入 | human | 获取/录入/上传 | ||||||
| s1 | 用 豆包 反推 从 目标参考图 提取隐含特征标签,得到 提示词 | 预处理 | 图片 | 目标参考图 | <月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球> | 豆包 | 提取/化学提取/反推 | 程序控制类型/指令/提示词 | s1o1 <占位>(原文未提供) | → s2 | |||
| 程序控制类型/指令/提示词 | 你现在是一位精通 AI 绘画(即梦/Stable Diffusion)的资深提示词专家。你的任务是帮助我通过反向工程,复刻这张图片的风格。 请你仔细观察这张上传的图片,从以下几个维度进行深度分析: 1 、主体特征(人物、服装细节、动作姿态) 2 、环境与构图(背景元素、视角、运镜方式) 3 、光影与色彩(光源类型、色调、明暗对比) 4 、材质与质感(是胶片感? 3 D渲染感?还是水墨笔触?) 5 、关键艺术风格词(比如 赛博朋克, 敦煌配色, 虚幻 5 渲染 等) 最终输出要求: 请无需过多解释,直接给我输出一段可以直接用于 AI 绘画的提示词(中英文对照)。 格式建议: [主体描述] , [环境描述] , [风格关键词] , [光影与镜头参数] 请确保关键词精准、丰富,能还原图片的 | ||||||||||||
| s2 | 将 提示词 输入 (AI生图工具) 元素生成 得到 样图 | 主体生成 | 图片 | 程序控制类型/指令/提示词 | <占位>(原文未提供) | ← s1o1 | (AI生图工具) | 生成/元素生成 | 内容类型/半成品/原子/样图 | s2o1 <AI文生图:橘猫宇航员站立于月球,背景宇宙和地球,与原图构图有偏差> | |||
| 需求 | 输入 | 实现 | 输出 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| # | 目的 | 作用 | 实质 | 形式 | 类型 | 值 | 来源 | 外部工具 | 动作 | 指令 | 类型 | 值 | 去处 |
| s0 | 人工 上传 目标参考图 作为工序起始输入 | 预准备 | 目标参考图 | <月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球> | ← 工序输入 | human | 获取/录入/上传 | ||||||
| s1 | 用 豆包 反推 从 目标参考图 提取隐含特征标签,得到 提示词 | 预处理 | 图片 | 目标参考图 | <月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球> | 豆包 | 提取/化学提取/反推 | 程序控制类型/指令/提示词 | s1o1 <占位>(原文未提供) | → s2 | |||
| 程序控制类型/指令/提示词 | 你现在是一位精通 AI 绘画(即梦/Stable Diffusion)的资深提示词专家。你的任务是帮助我通过反向工程,复刻这张图片的风格。 请你仔细观察这张上传的图片,从以下几个维度进行深度分析: 1 、主体特征(人物、服装细节、动作姿态) 2 、环境与构图(背景元素、视角、运镜方式) 3 、光影与色彩(光源类型、色调、明暗对比) 4 、材质与质感(是胶片感? 3 D渲染感?还是水墨笔触?) 5 、关键艺术风格词(比如 赛博朋克, 敦煌配色, 虚幻 5 渲染 等) 最终输出要求: 请无需过多解释,直接给我输出一段可以直接用于 AI 绘画的提示词(中英文对照)。 格式建议: [主体描述] , [环境描述] , [风格关键词] , [光影与镜头参数] 请确保关键词精准、丰富,能还原图片的 | ||||||||||||
| s2 | 以 提示词 结合 参考图 垫图,用 即梦 元素生成 得到 成品图 | 主体生成 | 图片 | 程序控制类型/指令/提示词 | <占位>(原文未提供) | ← s1o1 | 即梦 | 生成/元素生成 | 内容类型/成品/成品图 | s2o1 <反推提示词+原图垫图生成的橘猫宇航员坐姿图,构图接近原图,高级质感> | |||
| 内容类型/素材/化学变化/参考图 | <月球上的橘猫宇航员坐姿图,头戴玻璃头盔映出星光,背景为星空和蓝色地球> | ||||||||||||