原文: 如何用 AI 反推图片和视频提示词
wechat-gzh · 华姐AI笔记 · 2026-05-28

摘要: 介绍用多模态AI从参考图片提取视觉风格JSON后复刻图片,以及用Qwen3-VL将参考视频按分镜拆解后逐镜生成视频片段的两套反推工艺。


很多人在面对写提示词时就挠头,不是不会描述,而是不知道一张图到底好在哪里,比如颜色、构图、光影、质感怎么描述,属实做到金口难开。

今天就教你换一个思路,别再对着图片猜猜猜,而是交给

AI,让它帮你把图片“拆开看”。

下面就跟着我一块进行实操吧,流程十分简单:就是把你喜欢的图片或视频上传给

AI,让它先提取视觉结构,然后你再把这些结构转成可以直接用于生图或视频生成的提示词。更重要的是,你不需要看懂每一个专业词,你只要会复制、会微调,就能稳定复刻类似风格。

一、反推图片提示词

打开任意支持图片理解的

AI 工具,例如豆包、Gemini、

lovart

或其他多模态模型。

1、上传参考图片

上传你想参考的图片,然后输入提示词。

我这里随便在某书上找了一张目前比较火的古风图片进行实操。

在对话框输入这段提示词:

可直接复制的提示词

请以

JSON 结构化数据的形式,提取这张图片的视觉风格。请重点分析:颜色、构图、排版、主体、材质质感、光影、特效、画面氛围和适合复刻的关键词。输出要清晰、简洁,控制在500 字以内。

2、看懂 AI 分析的重点

AI 通常会输出一段类似代码的内容,里面会包含颜色、构图、质感、光影、特效等字段。但重点是:你不需要真的会写代码,只要明白这些字段分别代表什么。

JSON

{

"视觉风格分析": {

"颜色": {

"主色调": "淡雅绿色、米白色",

"辅助色": "粉色(花朵)、深棕色(木窗框)",

"色彩特征": "低饱和度、高明度、清新淡雅、春日感",

"色彩关系": "绿粉撞色、冷暖平衡"

},

"构图": {

"类型": "对角线构图",

"视角": "平视偏俯视",

"主体位置": "画面中心偏左,倚靠窗台",

"空间层次": "前景花枝、中景人物、后景虚化庭院"

},

"排版": {

"画幅比例": "9:16 竖构图",

"留白": "上方和右侧留白较多,营造呼吸感",

"视觉引导": "花枝自然框架引导视线至人物面部"

},

"主体": {

"人物": "年轻女性,古风造型",

"姿态": "慵懒侧卧,托腮,赤足",

"服饰": "薄纱绿色古风长裙,露肩设计",

"发饰": "编发盘发,白色小花点缀",

"神态": "温柔恬静,眼神清澈"

},

"材质质感": {

"服装": "轻盈薄纱,半透明质感",

"皮肤": "白皙细腻,自然光泽",

"木质": "深色木窗框,哑光质感",

"花朵": "柔软娇嫩,真实感"

},

"光影": {

"光源": "自然光,来自窗外",

"光质": "柔和散射光",

"明暗": "人物受光均匀,背景虚化柔和",

"氛围": "明亮通透,春日午后感"

},

"特效": {

"景深": "浅景深,背景虚化明显",

"光斑": "自然散景光斑",

"柔焦": "整体轻微柔焦,梦幻感"

},

"画面氛围": {

"情绪": "宁静、慵懒、浪漫",

"风格": "古风写真、仙侠剧照感",

"季节": "春日、花期",

"时间": "午后时光"

},

"复刻关键词": [

"古风少女",

"绿色薄纱汉服",

"木窗台侧卧",

"托腮姿态",

"花枝前景框架",

"浅景深",

"自然光",

"清新淡雅色调",

"春日庭院",

"编发花饰",

"9:16竖构图",

"柔和散景",

"低饱和度",

"电影感人像"

]

}

}

3、把结果交给生图模型

接下来打开你常用的生图工具,比如即梦、豆包、

Midjourney、

lovart

或其他模型。把刚才 AI 分析出来的结构化内容复制进去,再在前面加上你真正想生成的主体。

通用生图提示词模板

请帮我生成一张真实感人物图片,纯图片,不要文字,比例

9:16。请参考以下视觉风格结构,保留其颜色、构图、质感、光影和整体氛围:[粘贴 AI 分析出的结构化风格内容]

如果原参考图里有文字、

Logo 或水印,记得加一句:不要文字、不要 Logo、不要水印。这样生成结果会更干净,也更适合做封面、壁纸或角色图。

很快,复刻好的图片就出来了。

二、反推视频提示词

图片反推解决的是

画面长什么样子,但是视频反推还要多一步,那就是把视频拆成分镜。因为视频不只是风格,还有动作、镜头变化、声音、节奏和时长等。

1、首先我们准备要复刻的视频。

2、打开网址

https://modelscope.cn/studios/Qwen/Qwen3-VL-Demo/

视频反推提示词模板

请把这段视频拆分成不同分镜,并对每个分镜进行细致分析。每个分镜请包含:画面风格、主体特征、服装

/物品、动作描述、镜头变化、构图、光影、人物台词或旁白、背景音乐/音效、画质参数和时长。最后请生成一段可用于生成相似视频的完整提示词,格式为:[视频内容描述],[风格],[主体动作],[运镜],[声音],[画质参数]。

然后把参考视频上传到支持视频理解的模型里,让AI 按分镜拆解。重点不是让它总结剧情,而是让它分析每一段画面如何构成。

拿到结果之后,把每个分镜的提示词复制到视频模型里,比如

用Seedance2.0,然后

再根据模型支持的时长进行调整。5 秒视频就保留一个核心动作,10 秒以上再考虑多个镜头变化。

反推提示词的关键,不是让

AI 帮你“抄图”,而是让 AI 帮你把优秀画面的结构拆出来。颜色、构图、质感、光影、镜头和声音这些元素一旦被拆清楚,就能变成稳定可复用的创作模板。

简单的说:图片反推,是把风格拆成提示词;视频反推,是把镜头拆成分镜提示词。掌握这套方法后,你做封面、壁纸、角色设定、短视频分镜都会更快,也更容易得到接近目标的效果。

以上就是今天分享的全部内容。如果觉得对你有帮助,欢迎

点赞、收藏、关注

,你的支持是我持续更新的最大动力。

更多AI探索及案例:

华姐正在组建一个AI变现公益社群,每天都会分享最新的AI工具技巧、实战案例与变现思路,全程无广告、纯干货。感兴趣的朋友可以扫码添加下方微信,下方扫码

备注“AI”

拉你入群。

需求 # 目的 作用
输入 实质 形式 类型 变量名 来源
实现 外部工具 动作 指令 配置 运行 备注 逻辑控制 特性
输出 实质 形式 类型 变量名 去处
高亮推断 点击列名 ↔ 显示/隐藏 · 点击组名 ↔ 整组切换 · 「推」角标 hover 看推断理由
工序 图片风格反推与复刻 #目的: 将参考图片上传给多模态AI提取视觉风格JSON,再将其作为提示词组件喂给生图工具,复刻出风格相近的新图片 类别: 产物创造 #平台: wechat-gzh · #作者: 华姐AI笔记 · case: B_gzh_8f5fbfb0
输入
图片 参考图片 — 想复刻风格的参考图片,如古风写真、人物摄影等
程序控制类型/指令/提示词 主体描述 — (推断补全)用户想生成的主体内容描述,原文说「再在前面加上你真正想生成的主体」,未显式列为声明输入
返回
图片
需求 输入 实现 输出
# 目的 作用 实质 形式 类型 变量名 来源 外部工具 动作 指令 配置 运行 备注 逻辑控制 特性 实质 形式 类型 变量名 去处
s1
多模态AI图片 提取 视觉风格JSON 结构化风格描述
预处理/表象/视觉/实体/人物/人物特征/形象呈现/呈现/视觉/视觉制作/构图编排/版面设计/版面结构内容类型/素材/化学变化/参考图参考图片<古风女性AI写真静态图:年轻女性身穿薄纱绿色汉服,倚靠木质窗台慵懒侧卧,托腮赤足,前景粉色花枝,背景虚化庭院建筑,9:16竖构图,低饱和度清新春日色调,浅景深>← 工序输入(多模态AI工具)提取/化学提取/反推
请以 JSON 结构化数据的形式,提取这张图片的视觉风格。请重点分析:颜色、构图、排版、主体、材质质感、光影、特效、画面氛围和适合复刻的关键词。输出要清晰、简洁,控制在500 字以内。
工具选型自由:豆包/Gemini/Lovart/任意支持图片理解的多模态模型均可;原文截图使用Lovart界面
-随机/表象/视觉/画面/后期/美学风格/架构/逻辑/信息编排逻辑/条目列举/逐条罗列/序号列举视觉风格JSON视觉风格JSON{"视觉风格分析": {"颜色": {"主色调": "淡雅绿色、米白色", "辅助色": "粉色(花朵)、深棕色(木窗框)", "色彩特征": "低饱和度、高明度、清新淡雅、春日感", "色彩关系": "绿粉撞色、冷暖平衡"}, "构图": {"类型": "对角线构图", "视角": "平视偏俯视", "主体位置": "画面中心偏左,倚靠窗台", "空间层次": "前景花枝、中景人物、后景虚化庭院"}, "排版": {"画幅比例": "9:16 竖构图", "留白": "上方和右侧留白较多,营造呼吸感", "视觉引导": "花枝自然框架引导视线至人物面部"}, "主体": {"人物": "年轻女性,古风造型", "姿态": "慵懒侧卧,托腮,赤足", "服饰": "薄纱绿色古风长裙,露肩设计", "发饰": "编发盘发,白色小花点缀", "神态": "温柔恬静,眼神清澈"}, "材质质感": {"服装": "轻盈薄纱,半透明质感", "皮肤": "白皙细腻,自然光泽", "木质": "深色木窗框,哑光质感", "花朵": "柔软娇嫩,真实感"}, "光影": {"光源": "自然光,来自窗外", "光质": "柔和散射光", "明暗": "人物受光均匀,背景虚化柔和", "氛围": "明亮通透,春日午后感"}, "特效": {"景深": "浅景深,背景虚化明显", "光斑": "自然散景光斑", "柔焦": "整体轻微柔焦,梦幻感"}, "画面氛围": {"情绪": "宁静、慵懒、浪漫", "风格": "古风写真、仙侠剧照感", "季节": "春日、花期", "时间": "午后时光"}, "复刻关键词": ["古风少女", "绿色薄纱汉服", "木窗台侧卧", "托腮姿态", "花枝前景框架", "浅景深", "自然光", "清新淡雅色调", "春日庭院", "编发花饰", "9:16竖构图", "柔和散景", "低饱和度", "电影感人像"]}}→ s2
s2
生图工具视觉风格JSON 文生图 生成风格复刻的 图片
主体生成/表象/视觉/画面/后期/美学风格/架构/逻辑/信息编排逻辑/条目列举/逐条罗列/序号列举视觉风格JSON视觉风格JSON{"视觉风格分析": {"颜色": {"主色调": "淡雅绿色、米白色", "辅助色": "粉色(花朵)、深棕色(木窗框)", "色彩特征": "低饱和度、高明度、清新淡雅、春日感", "色彩关系": "绿粉撞色、冷暖平衡"}, "构图": {"类型": "对角线构图", "视角": "平视偏俯视", "主体位置": "画面中心偏左,倚靠窗台", "空间层次": "前景花枝、中景人物、后景虚化庭院"}, "排版": {"画幅比例": "9:16 竖构图", "留白": "上方和右侧留白较多,营造呼吸感", "视觉引导": "花枝自然框架引导视线至人物面部"}, "主体": {"人物": "年轻女性,古风造型", "姿态": "慵懒侧卧,托腮,赤足", "服饰": "薄纱绿色古风长裙,露肩设计", "发饰": "编发盘发,白色小花点缀", "神态": "温柔恬静,眼神清澈"}, "材质质感": {"服装": "轻盈薄纱,半透明质感", "皮肤": "白皙细腻,自然光泽", "木质": "深色木窗框,哑光质感", "花朵": "柔软娇嫩,真实感"}, "光影": {"光源": "自然光,来自窗外", "光质": "柔和散射光", "明暗": "人物受光均匀,背景虚化柔和", "氛围": "明亮通透,春日午后感"}, "特效": {"景深": "浅景深,背景虚化明显", "光斑": "自然散景光斑", "柔焦": "整体轻微柔焦,梦幻感"}, "画面氛围": {"情绪": "宁静、慵懒、浪漫", "风格": "古风写真、仙侠剧照感", "季节": "春日、花期", "时间": "午后时光"}, "复刻关键词": ["古风少女", "绿色薄纱汉服", "木窗台侧卧", "托腮姿态", "花枝前景框架", "浅景深", "自然光", "清新淡雅色调", "春日庭院", "编发花饰", "9:16竖构图", "柔和散景", "低饱和度", "电影感人像"]}}← s1.视觉风格JSON(生图工具)生成/元素生成
请帮我生成一张真实感人物图片,纯图片,不要文字,比例 9:16。请参考以下视觉风格结构,保留其颜色、构图、质感、光影和整体氛围:[粘贴AI分析出的结构化风格内容]
比例=9:16
工具选型自由:即梦/豆包/Midjourney/Lovart均可;原图含文字/Logo/水印时可在directive末尾补一句「不要文字、不要Logo、不要水印」
-随机/表象/视觉/实体/人物/人物特征/形象呈现/呈现/视觉/视觉制作/构图编排/版面设计/版面结构内容类型/成品/成品图复刻图片<复刻古风女性写真图:风格与参考图相近的AI生成图片,9:16竖构图,绿色薄纱汉服,窗台侧卧姿态,粉色花枝前景框架,背景虚化庭院,低饱和度清新春日色调>→ 返回 复刻图片
/理念/知识/商业/前沿技术/AI智能/机器学习/呈现/视觉/视觉制作/构图编排/版面设计/版面结构程序控制类型/指令/提示词主体描述真实感人物图片,纯图片,不要文字← 工序输入
返回 复刻图片
工序 视频分镜反推与复刻 #目的: 将参考视频上传给Qwen3-VL进行分镜拆解,获取每个分镜的详细提示词,再遍历每镜喂给视频生成工具复刻相似视频片段 类别: 产物创造 #平台: wechat-gzh · #作者: 华姐AI笔记 · case: B_gzh_8f5fbfb0
输入
视频 参考视频 — 想复刻风格和分镜结构的参考视频
返回
视频
需求 输入 实现 输出
# 目的 作用 实质 形式 类型 变量名 来源 外部工具 动作 指令 配置 运行 备注 逻辑控制 特性 实质 形式 类型 变量名 去处
s1
Qwen3-VL视频 按分镜拆解为含提示词的 分镜文本 序列
预处理/表象/视觉/实体/物品/影像物品/艺术创作/呈现/视觉/视觉制作/素材来源/影视素材内容类型/素材/化学变化/参考视频参考视频<古风宫廷风格短视频,约4个分镜:茶盏倾酒/烛火飞雪/红衣贵妃特写/白衣女子跪泣,总时长约3.2秒,4K画质>← 工序输入Qwen3-VL提取/化学提取/解构
请把这段视频拆分成不同分镜,并对每个分镜进行细致分析。每个分镜请包含:画面风格、主体特征、服装/物品、动作描述、镜头变化、构图、光影、人物台词或旁白、背景音乐/音效、画质参数和时长。最后请生成一段可用于生成相似视频的完整提示词,格式为:[视频内容描述],[风格],[主体动作],[运镜],[声音],[画质参数]。
URL=https://modelscope.cn/studios/Qwen/Qwen3-VL-Demo/
Qwen3-VL Demo 免费在线访问,支持视频上传及多轮对话分析;重点是让AI分析每段画面如何构成,而非总结剧情
-随机/理念/知识/思想/概念范畴/关系结构/构成要素/架构/逻辑/信息编排逻辑/条目列举/分段结构/流程递进分镜序列分镜序列分镜1(茶盏倾酒,0.2s):古典宫廷风;着红色宫线龙袍女性手持白瓷茶盏倾倒,茶水泼洒成弧形水花;特写→慢镜头拉远;左侧主体1/3构图,右侧留白;暖主光打亮手部,水珠反光;4K 60fps 慢动作 ISO200 f/2.8 色温3200K。 分镜2(烛火摇曳与飞雪,0.5s):梦幻朦胧,景深极浅;白色颗粒从上至下飘落,暖黄烛光微颤;固定镜头,焦点在前景飘落物;对角线构图;暖黄烛光为唯一光源;风声轻拂+微弱铃铛声;4K 24fps ISO800 f/1.4 色温2800K。 分镜3(红衣贵妃特写,1.0s):精致工笔画风;中年女性丹凤眼柳叶眉,红色金线龙凤袍,头戴蓝金凤凰冠;近景推至特写,聚焦眼部与冠饰;中心构图;正面柔光打亮面部;台词:「你,可知罪?」(低沉女声);4K 30fps ISO400 f/2.2 色温3500K。 分镜4(白衣女子跪地哭泣,1.5s):悲情戏剧风;年轻女性黑发湿濡,泪痕斑驳,素白交领裙;低头垂泪,泪水沿脸颊滑落,肩部颤抖;特写→轻微晃动模拟呼吸后拉至中景;斜侧角度,逆光勾勒轮廓;台词:「求娘娘开恩...」(哽咽女声);4K 24fps ISO600 f/2.0 色温3000K。→ s2
s2
遍历 分镜文本 每个分镜条目,逐镜生成对应 视频 片段
分镜序列分镜序列分镜1(茶盏倾酒,0.2s):古典宫廷风;着红色宫线龙袍女性手持白瓷茶盏倾倒,茶水泼洒成弧形水花;特写→慢镜头拉远;左侧主体1/3构图,右侧留白;暖主光打亮手部,水珠反光;4K 60fps 慢动作 ISO200 f/2.8 色温3200K。\n分镜2(烛火摇曳与飞雪,0.5s):梦幻朦胧,景深极浅;白色颗粒从上至下飘落,暖黄烛光微颤;固定镜头,焦点在前景飘落物;对角线构图;暖黄烛光为唯一光源;风声轻拂+微弱铃铛声;4K 24fps ISO800 f/1.4 色温2800K。\n分镜3(红衣贵妃特写,1.0s):精致工笔画风;中年女性丹凤眼柳叶眉,红色金线龙凤袍,头戴蓝金凤凰冠;近景推至特写,聚焦眼部与冠饰;中心构图;正面柔光打亮面部;台词:「你,可知罪?」(低沉女声);4K 30fps ISO400 f/2.2 色温3500K。\n分镜4(白衣女子跪地哭泣,1.5s):悲情戏剧风;年轻女性黑发湿濡,泪痕斑驳,素白交领裙;低头垂泪,泪水沿脸颊滑落,肩部颤抖;特写→轻微晃动模拟呼吸后拉至中景;斜侧角度,逆光勾勒轮廓;台词:「求娘娘开恩...」(哽咽女声);4K 24fps ISO600 f/2.0 色温3000K。← s1.分镜序列-遍历-内容类型/素材/物理变化/视频片段视频片段列表<4段AI生成视频片段列表:片段1(茶盏倾酒)+ 片段2(烛火飞雪)+ 片段3(红衣贵妃)+ 片段4(白衣跪泣),风格和运镜分别对应参考视频各分镜>→ 返回 视频片段列表
└ s2.1
Seedance2.0提示词 生成对应 视频 片段
主体生成/理念/知识/商业/前沿技术/AI智能/机器学习/呈现/视觉/视觉制作/构图编排/版面设计/版面结构程序控制类型/指令/提示词分镜提示词<对应分镜的完整生成提示词,格式:[视频内容描述],[风格],[主体动作],[运镜],[声音],[画质参数]>← 分镜序列[i]Seedance 2.0生成/元素生成
时长=5s(保留单核心动作)或10s以上(含多镜头变化),按模型支持上限选取
工具选型示例性:原文「比如用Seedance2.0」,可替换为其他视频生成工具;5秒视频保留一个核心动作,10秒以上再考虑多个镜头变化
-随机/表象/视觉/实体/物品/影像物品/艺术创作/呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成内容类型/素材/物理变化/视频片段视频片段<5-10秒单段视频,风格和运镜与参考视频对应分镜一致>→ 视频片段列表.追加
返回 视频片段列表