摘要: 系统讲解 AI 生图提示词写法:八要素框架(主体/细节/动作/场景/风格/光线/镜头/画质)+ 六大实用方法论(反推法、分层迭代、问题加词清单、参考图法、文字渲染、权重负面词),附各主流工具(MJ/SD/Nano Banana/GPT-4o/国产)使用口味对比。
先说个扎心的事
你有没有过这种经历:脑子里明明有幅特别清楚的画面,夕阳下一个女孩在海边回头笑,结果打进生图工具里,出来的要么脸崩了,要么背景糊成一片,要么干脆给你生成了一个站在游泳池边的中年妇女。
然后你就开始抽卡。一张不行两张,两张不行十张,十张不行换工具。从 Midjourney 抽到 SD,从 SD 抽到 Nano Banana,最后发现问题不在工具。
我自己在这件事上交过不少学费。有段时间天天泡在各种工具里,一个画面抽二三十次都不对,特别挫败。后来琢磨出来:出图质量八成取决于提示词怎么写,两成才是模型本身。同样一个模型,有人做出能上杂志的广告大片,有人做出一堆表情扭曲的废图,区别就在那几行字。
先搞懂 AI 在想什么
主流生图模型本质都是扩散模型。训练过程说白了就是看了几亿张图和对应的文字描述,学会了”这样的文字”对应”这样的画面”。
这里有两个事实很重要。
AI 只认识它见过的词。
你写”赛博朋克”它懂,因为训练集里有大量打了这个标签的图。但你写
我老家那种氛围
它就懵了。提示词要用公共的、有明确视觉指向的词,不是你的私人记忆。
AI 在做概率拟合,不是理解。
你写”一个红头发的女孩”,它不是真理解这几个字,而是从训练数据里抽出这几个标签一起出现时的视觉统计。描述越模糊,它越往”最常见的那种”靠,结果就是你觉得”好像是这个但又好像不对”。
两个原则:具体比抽象好,视觉比感受好。”美女”是抽象,”22 岁亚洲女孩齐刘海圆脸穿白色针织衫”是具体;”温馨”是感受,”暖色调,浅景深,壁炉火光”是视觉。
八要素公式:一条提示词该有的骨架
我把一条完整的提示词拆成八项。
写的时候心里过一遍这张表,挨个问自己”这块交代了没”。
分别为
主体、细节、动作、场景、风格、光线、镜头、画质。
主体
写在最前面,因为大多数模型对前面的词权重更高。要回答三个问题:是什么、多少个、核心特征。反面:”一个女孩。”正面:”一个 22 岁的东亚女孩,齐肩黑发,丹凤眼,穿米白色羊毛高领毛衣。” 有个小窍门,想生成特定长相可以用名人做锚点,”气质类似周迅”“长相接近艾玛·沃森”,比一堆形容词准得多。商业用途要避开侵权,自己玩无所谓。
细节
是把骨架变成血肉的那一步。服装的材质款式颜色配饰、头发的状态、表情、姿势、手部动作、物品的磨损和反光。很多人只写到主体就没了,这是最大的浪费。”一个男人坐在咖啡馆里”和”一个 30 岁左右的男人坐在靠窗的位置,深棕色短发微微凌乱,穿藏青色羊毛大衣配白衬衫,右手握着一杯冒热气的拿铁,左手翻开一本硬皮书,眉头微蹙像在想什么”——你把这两句分别丢进同一个工具跑一下,差距不用我多说。
动作
让画面动起来。哪怕你画一个站着的人,加”微微侧身准备转头”画面立刻有呼吸感。常用词:奔跑、回眸、伸手、低头、仰望、蜷缩、沉思。
场景
就是背景环境。很多人随便写个”户外”完事,结果背景要么空要么乱。好的场景要有地点、时间、天气、氛围物。”秋天傍晚的京都岚山,铺满红枫落叶的石板小路,远处是被晚霞染红的竹林,空气里有细微的雾气”——这样写出来背景就不会是随便一片树林。
风格
决定一张图的调性。摄影类有商业摄影、胶片摄影、宝丽来、黑白纪实;绘画类有油画、水彩、水墨、国画工笔、浮世绘;数字艺术类有 3D 渲染、CG 插画、赛博朋克;动漫类有新海诚、宫崎骏、京都动画。这里有个杀手锏:
直接用艺术家的名字做风格锚点
,比如 “in the style of Makoto Shinkai”,效果通常比写一堆形容词还准,因为模型见过太多带艺术家标签的作品。
光线
是很多人没注意的质感来源。如果你的图总是”一看就是 AI 做的”,八成是光线太弱。收藏这几个词:柔光适合人像,硬光适合戏剧感,逆光让轮廓发光,伦勃朗光是经典肖像光,黄金时刻(日出日落前的暖色光)是万能加分项,蓝调时刻(日落后深蓝天空)是城市夜景利器,体积光能看见光束穿过空气、森林教堂特别好用。随便加一个到提示词里,图的质感立刻上一个档次。
镜头
是很多人忽略但极其重要的一项。景别决定你离主体多近:特写、半身、全身、远景。角度决定你从哪看:平视、俯视、仰视、鸟瞰、过肩。镜头类型是专业词汇,非常好用:广角、长焦(背景虚化强)、微距、鱼眼。甚至可以直接写 35mm、50mm、85mm,模型是懂的。”一个女孩在樱花树下” vs “一个女孩在樱花树下,85mm 人像镜头,浅景深,半身特写,平视角度,背景樱花虚化成光斑”,后者立刻就有了专业感。
画质
是末尾的 buff:4K、高细节、锐利对焦、专业摄影、获奖作品。放最后逗号分隔。
一个完整示例:
一位 25 岁的法国女孩,栗色卷发披肩,穿米色羊毛大衣和暗红色围巾,手里捧着一杯冒热气的咖啡,半侧身坐着望向窗外,巴黎老街区的咖啡馆靠窗位置,窗外下着细雨,玻璃上有雨滴,远处模糊的街灯和行人,电影感摄影,胶片质感,暖黄室内光与冷色窗外对比,逆光勾勒头发轮廓,85mm 镜头浅景深半身特写,4K 高细节,获奖摄影。
把这条丢进任何一个主流工具,出图都会很稳定。每一个可能让 AI 自由发挥的缝隙都被你堵住了。
几个最实用的方法论
光有公式还不够,下面这几个方法是我觉得最值钱的部分。
方法一:抄作业反推法
自己从零开始写提示词太费劲,最快的进步方式是抄作业。去 civitai、lexica.art、PromptHero、Midjourney 官方展示页,找到你喜欢的图,直接看它的提示词。看多了你会发现高手写的提示词有共同的结构和爱用的词,慢慢就内化成你自己的库。
更进一步的玩法:把一张你喜欢的别人的图截图,扔给 Claude、GPT-4o 这种多模态模型,说”帮我反推一条能生成这种图的 Midjourney 提示词,要包含主体、光线、镜头、风格”。它会给你一条相当能用的东西,再微调就行。这招我用了半年,词感长得飞快。
方法二:分层迭代,一次只改一块
新手最大的问题是每次都从头重写。正确的做法是
分层迭代
:先确定主体和构图对不对,再调风格和光线,最后抠细节。每次只改一小块,其他保持不动。
我自己的 debug 流程是这样的:
第一轮只写主体 + 场景 + 基本风格,看 AI 理解的方向对不对。方向错了改方向,方向对了进下一轮。
第二轮加光线和镜头。如果出图变丑了说明镜头或光线词和前面的风格冲突,挑一个删掉。
第三轮抠细节:服装、表情、手部、配饰。发现某部位反复崩就加负面词或调权重。
这个流程比一次写 80 个词跑 20 张效率高得多。你每一步都知道问题出在哪。
方法三:问题 → 加词清单
生图最挫败的是”差一点点”,下面是我自己整理的对症下药清单,建议收藏。
脸崩/五官扭曲
:加 detailed face, symmetric face, sharp eyes;负面词加 deformed face, asymmetric
手崩(最常见的坑)
:加 detailed hands, five fingers;负面词 extra fingers, missing fingers, bad hands, mutated hands
画面太平没氛围
:缺光线词。加 cinematic lighting, volumetric light, rim light
画面太暗
:加 bright, well-lit, soft daylight
看起来太假太 AI
:加 film grain, analog photography, 35mm film, slight imperfection
背景糊成一团
:具体描述背景物体,或者加 detailed background, intricate environment
人物没表情
:直接描述情绪,smiling softly, melancholic expression, determined look
构图太居中呆板
:加 rule of thirds composition, off-center
颜色不对
:写具体的颜色名或 hex 码,或用 warm tone / cool tone / muted colors 控制整体色调
方法四:参考图比提示词更强
如果你的工具支持图生图或者参考图,
一张参考图能顶 50 个形容词
。这是个很多人没意识到的事。
Midjourney 的
--sref
(风格参考)、
--cref
(角色参考),Nano Banana 的上传图片编辑,SD 的 ControlNet 和 IPAdapter,都是走这条路。你直接把想要的风格或人物扔给它,让它照着画,比你写多少提示词都准。
常用场景:想保持角色一致性(同一个人不同场景),上传一张角色图作 cref;想复刻某种色调氛围,上传一张参考图作 sref;想复用某个构图,用 ControlNet 的 canny 或 openpose。
方法五:文字渲染只用 Nano Banana 或 GPT-4o
如果你要做 logo、海报、表情包这种带文字的图,
别再用 Midjourney 和 SD 瞎折腾了
,它们出文字十次有九次是乱码。直接用 Nano Banana(Gemini 3 Pro Image)或 GPT-4o,这俩是目前文字渲染最准的。
写法上要明确指定三件事:要显示的文字内容、字体风格(描述性的,比如”俐落的无衬线字”“衬线字手写感”)、整体设计风格。比如:”为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。”这样出来的基本能直接用。
方法六:权重和负面词的真正用法
权重不是越高越好。SD 里
(keyword:1.5)
已经很强了,超过 1.7 画面容易崩。负面词也不是越多越好,堆太多会互相干扰,保留一个通用模板就够:
low quality, blurry, deformed, bad anatomy, bad hands, extra fingers, watermark, text, ugly
。
MJ 的
::
分权重很少有人用,但对比很强烈的画面特别有用,比如
a burning ice cube::2 realistic::1
能强迫模型理解这是矛盾组合。
几个主流工具的口味差异
同一条提示词在不同工具上效果天差地别,知道各自的口味很重要。
Midjourney 喜欢简洁有力。
它本身有很强的美学倾向,不用写太多修饰词也能出好图。但它对参数敏感,
--ar 16:9
(宽高比)、
--stylize
(风格化强度)、
--chaos
(随机度)这些要会用。典型写法是英文、逗号分隔、短词组、参数放最后。
Stable Diffusion 喜欢关键词堆叠。
SD 没那么强的内置审美,你得把每个细节都写清楚,并且善用权重。典型特征是开头堆一排 masterpiece, best quality 之类的质量词,中间是密集的关键词和权重。
Nano Banana 喜欢自然语言。
它本质上就是个大语言模型在生图,用日常对话说话效果最好。两个杀手锏:
文字渲染准
(做 logo 海报优先选)、
对话式编辑
(生成后可以说”把背景换成黄昏”“给她加眼镜”“去掉左边的杯子”,精准修改不破坏其他部分)。这个能力用过一次就回不去了。
GPT-4o 的强项是理解长复杂指令。
你可以直接写:”要那种王家卫电影的感觉,潮湿的空气和迷离的灯光。”它会自己理解这等于霓虹、雨夜、冷暖对比、手持抓拍感。
国产工具
像即梦、可灵、通义万相,对中文支持最好,对中国元素(汉服、古建筑、山水)的理解远超海外模型。做国风图直接用国产工具加中文提示词,比硬用 Midjourney 强得多。
最后:提示词其实是一种翻译
网上很多人把提示词叫咒语,好像得念对了才能召唤出好图。但我越写越觉得,
提示词的本质是翻译
。把你脑子里那幅模糊的画面,翻译成 AI 能听懂的语言。
所以写好提示词的前提,是你自己先想清楚要什么。如果你脑子里只有一个模糊的”好看的女孩”,再强的模型也救不了你。但如果你能先看见那张图,看见她的年龄、表情、衣服的颜色、站的位置、身后的光,然后把这些一条条翻译出来,AI 就会给你一个接近九成还原的结果。
AI 生图练的其实是两种能力:视觉想象力和描述精确度。前者是审美素养,后者是表达训练。这两样练多了,不光生图变强,你的审美、写作、对视觉信息的敏感度都会跟着涨。
别把它当玄学,当成一门可以系统学的手艺。今天讲的八要素、抄作业反推、分层迭代、问题加词清单、参考图大法、各工具的口味,拿去用,改,变成你自己的东西。一个月之后你写提示词的速度和命中率会比现在高一个数量级。我就是这么过来的。
| 需求 | 输入 | 实现 | 输出 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| # | 目的 | 作用 | 实质 | 形式 | 类型 | 值 | 来源 | 外部工具 | 动作 | 指令 | 类型 | 值 | 去处 |
| s1 | 从 对标内容 中 解构 方法论,得到可复用的 知识库 | 工艺规约 | 图像生成提示词 | 内容类型/素材/化学变化/对标内容 | 抽了几百次卡之后,我才搞明白 AI 生图的提示词该怎么写 | ← 教程原文 | human | 提取/化学提取/解构 | 知识类型/知识库 | s1o1 两个原则:具体比抽象好,视觉比感受好。”美女”是抽象,”22 岁亚洲女孩齐刘海圆脸穿白色针织衫”是具体;”温馨”是感受,”暖色调,浅景深,壁炉火光”是视觉。 八要素公式:一条提示词该有的骨架 我把一条完整的提示词拆成八项。 写的时候心里过一遍这张表,挨个问自己”这块交代了没”。 分别为 主体、细节、动作、场景、风格、光线、镜头、画质。 主体 写在最前面,因为大多数模型对前面的词权重更高。要回答三个问题:是什么、多少个、核心特征。反面:”一个女孩。”正面:”一个 22 岁的东亚女孩,齐肩黑发,丹凤眼,穿米白色羊毛高领毛衣。” 有个小窍门,想生成特定长相可以用名人做锚点,”气质类似周迅”“长相接近艾玛·沃森”,比一堆形容词准得多。商业用途要避开侵权,自己玩无所谓。 细节 是把骨架变成血肉的那一步。服装的材质款式颜色配饰、头发的状态、表情、姿势、手部动作、物品的磨损和反光。很多人只写到主体就没了,这是最大的浪费。”一个男人坐在咖啡馆里”和”一个 30 岁左右的男人坐在靠窗的位置,深棕色短发微微凌乱,穿藏青色羊毛大衣配白衬衫,右手握着一杯冒热气的拿铁,左手翻开一本硬皮书,眉头微蹙像在想什么”——你把这两句分别丢进同一个工具跑一下,差距不用我多说。 动作 让画面动起来。哪怕你画一个站着的人,加”微微侧身准备转头”画面立刻有呼吸感。常用词:奔跑、回眸、伸手、低头、仰望、蜷缩、沉思。 场景 就是背景环境。很多人随便写个”户外”完事,结果背景要么空要么乱。好的场景要有地点、时间、天气、氛围物。”秋天傍晚的京都岚山,铺满红枫落叶的石板小路,远处是被晚霞染红的竹林,空气里有细微的雾气”——这样写出来背景就不会是随便一片树林。 风格 决定一张图的调性。摄影类有商业摄影、胶片摄影、宝丽来、黑白纪实;绘画类有油画、水彩、水墨、国画工笔、浮世绘;数字艺术类有 3D 渲染、CG 插画、赛博朋克;动漫类有新海诚、宫崎骏、京都动画。这里有个杀手锏: 直接用艺术家的名字做风格锚点 ,比如 “in the style of Makoto Shinkai”,效果通常比写一堆形容词还准,因为模型见过太多带艺术家标签的作品。 光线 是很多人没注意的质感来源。如果你的图总是”一看就是 AI 做的”,八成是光线太弱。收藏这几个词:柔光适合人像,硬光适合戏剧感,逆光让轮廓发光,伦勃朗光是经典肖像光,黄金时刻(日出日落前的暖色光)是万能加分项,蓝调时刻(日落后深蓝天空)是城市夜景利器,体积光能看见光束穿过空气、森林教堂特别好用。随便加一个到提示词里,图的质感立刻上一个档次。 镜头 是很多人忽略但极其重要的一项。景别决定你离主体多近:特写、半身、全身、远景。角度决定你从哪看:平视、俯视、仰视、鸟瞰、过肩。镜头类型是专业词汇,非常好用:广角、长焦(背景虚化强)、微距、鱼眼。甚至可以直接写 35mm、50mm、85mm,模型是懂的。”一个女孩在樱花树下” vs “一个女孩在樱花树下,85mm 人像镜头,浅景深,半身特写,平视角度,背景樱花虚化成光斑”,后者立刻就有了专业感。 画质 是末尾的 buff:4K、高细节 | → s2, → s4 | ||
| s2 | 以 知识库 为骨架,元素生成 一条完整的八要素 提示词 | 预处理 | 提示词 | 知识类型/知识库 | 两个原则:具体比抽象好,视觉比感受好。”美女”是抽象,”22 岁亚洲女孩齐刘海圆脸穿白色针织衫”是具体;”温馨”是感受,”暖色调,浅景深,壁炉火光”是视觉。 八要素公式:一条提示词该有的骨架 我把一条完整的提示词拆成八项。 写的时候心里过一遍这张表,挨个问自己”这块交代了没”。 分别为 主体、细节、动作、场景、风格、光线、镜头、画质。 主体 写在最前面,因为大多数模型对前面的词权重更高。要回答三个问题:是什么、多少个、核心特征。反面:”一个女孩。”正面:”一个 22 岁的东亚女孩,齐肩黑发,丹凤眼,穿米白色羊毛高领毛衣。” 有个小窍门,想生成特定长相可以用名人做锚点,”气质类似周迅”“长相接近艾玛·沃森”,比一堆形容词准得多。商业用途要避开侵权,自己玩无所谓。 细节 是把骨架变成血肉的那一步。服装的材质款式颜色配饰、头发的状态、表情、姿势、手部动作、物品的磨损和反光。很多人只写到主体就没了,这是最大的浪费。”一个男人坐在咖啡馆里”和”一个 30 岁左右的男人坐在靠窗的位置,深棕色短发微微凌乱,穿藏青色羊毛大衣配白衬衫,右手握着一杯冒热气的拿铁,左手翻开一本硬皮书,眉头微蹙像在想什么”——你把这两句分别丢进同一个工具跑一下,差距不用我多说。 动作 让画面动起来。哪怕你画一个站着的人,加”微微侧身准备转头”画面立刻有呼吸感。常用词:奔跑、回眸、伸手、低头、仰望、蜷缩、沉思。 场景 就是背景环境。很多人随便写个”户外”完事,结果背景要么空要么乱。好的场景要有地点、时间、天气、氛围物。”秋天傍晚的京都岚山,铺满红枫落叶的石板小路,远处是被晚霞染红的竹林,空气里有细微的雾气”——这样写出来背景就不会是随便一片树林。 风格 决定一张图的调性。摄影类有商业摄影、胶片摄影、宝丽来、黑白纪实;绘画类有油画、水彩、水墨、国画工笔、浮世绘;数字艺术类有 3D 渲染、CG 插画、赛博朋克;动漫类有新海诚、宫崎骏、京都动画。这里有个杀手锏: 直接用艺术家的名字做风格锚点 ,比如 “in the style of Makoto Shinkai”,效果通常比写一堆形容词还准,因为模型见过太多带艺术家标签的作品。 光线 是很多人没注意的质感来源。如果你的图总是”一看就是 AI 做的”,八成是光线太弱。收藏这几个词:柔光适合人像,硬光适合戏剧感,逆光让轮廓发光,伦勃朗光是经典肖像光,黄金时刻(日出日落前的暖色光)是万能加分项,蓝调时刻(日落后深蓝天空)是城市夜景利器,体积光能看见光束穿过空气、森林教堂特别好用。随便加一个到提示词里,图的质感立刻上一个档次。 镜头 是很多人忽略但极其重要的一项。景别决定你离主体多近:特写、半身、全身、远景。角度决定你从哪看:平视、俯视、仰视、鸟瞰、过肩。镜头类型是专业词汇,非常好用:广角、长焦(背景虚化强)、微距、鱼眼。甚至可以直接写 35mm、50mm、85mm,模型是懂的。”一个女孩在樱花树下” vs “一个女孩在樱花树下,85mm 人像镜头,浅景深,半身特写,平视角度,背景樱花虚化成光斑”,后者立刻就有了专业感。 画质 是末尾的 buff:4K、高细节 | ← s1o1 | human | 生成/元素生成 | 程序控制类型/指令/提示词 | s2o1 一位 25 岁的法国女孩,栗色卷发披肩,穿米色羊毛大衣和暗红色围巾,手里捧着一杯冒热气的咖啡,半侧身坐着望向窗外,巴黎老街区的咖啡馆靠窗位置,窗外下着细雨,玻璃上有雨滴,远处模糊的街灯和行人,电影感摄影,胶片质感,暖黄室内光与冷色窗外对比,逆光勾勒头发轮廓,85mm 镜头浅景深半身特写,4K 高细节,获奖摄影。 | → s3 | ||
| 内容类型/素材/化学变化/参考图 | <用户可选提供的灵感参考图,对应目标画面风格> | ← 工序输入 | |||||||||||
| s3 | 用 (AI生图工具) 按 提示词 元素生成 候选 样图 | 主体生成 | 图像 | 程序控制类型/指令/提示词 | 一位 25 岁的法国女孩,栗色卷发披肩,穿米色羊毛大衣和暗红色围巾,手里捧着一杯冒热气的咖啡,半侧身坐着望向窗外,巴黎老街区的咖啡馆靠窗位置,窗外下着细雨,玻璃上有雨滴,远处模糊的街灯和行人,电影感摄影,胶片质感,暖黄室内光与冷色窗外对比,逆光勾勒头发轮廓,85mm 镜头浅景深半身特写,4K 高细节,获奖摄影。 | ← s2o1 | (AI生图工具) | 生成/元素生成 | 按提示词直接生成,不做额外修改 | 内容类型/半成品/原子/样图 | s3o1 <AI生成的候选人像图,初步呈现法国女孩坐在巴黎咖啡馆场景> | → s4 | |
| s4 | 诊断 样图 问题,按 知识库 加词清单 添加 修正词得修订 提示词 | 预处理 | 提示词 | 内容类型/半成品/原子/样图 | <AI生成的候选人像图,初步呈现法国女孩坐在巴黎咖啡馆场景> | ← s3o1 | human | 修改/增/添加 | 程序控制类型/指令/提示词 | s4o1 <占位>(原文未提供修订后的完整提示词) | → s5 | ||
| 知识类型/知识库 | 两个原则:具体比抽象好,视觉比感受好。”美女”是抽象,”22 岁亚洲女孩齐刘海圆脸穿白色针织衫”是具体;”温馨”是感受,”暖色调,浅景深,壁炉火光”是视觉。 八要素公式:一条提示词该有的骨架 我把一条完整的提示词拆成八项。 写的时候心里过一遍这张表,挨个问自己”这块交代了没”。 分别为 主体、细节、动作、场景、风格、光线、镜头、画质。 主体 写在最前面,因为大多数模型对前面的词权重更高。要回答三个问题:是什么、多少个、核心特征。反面:”一个女孩。”正面:”一个 22 岁的东亚女孩,齐肩黑发,丹凤眼,穿米白色羊毛高领毛衣。” 有个小窍门,想生成特定长相可以用名人做锚点,”气质类似周迅”“长相接近艾玛·沃森”,比一堆形容词准得多。商业用途要避开侵权,自己玩无所谓。 细节 是把骨架变成血肉的那一步。服装的材质款式颜色配饰、头发的状态、表情、姿势、手部动作、物品的磨损和反光。很多人只写到主体就没了,这是最大的浪费。”一个男人坐在咖啡馆里”和”一个 30 岁左右的男人坐在靠窗的位置,深棕色短发微微凌乱,穿藏青色羊毛大衣配白衬衫,右手握着一杯冒热气的拿铁,左手翻开一本硬皮书,眉头微蹙像在想什么”——你把这两句分别丢进同一个工具跑一下,差距不用我多说。 动作 让画面动起来。哪怕你画一个站着的人,加”微微侧身准备转头”画面立刻有呼吸感。常用词:奔跑、回眸、伸手、低头、仰望、蜷缩、沉思。 场景 就是背景环境。很多人随便写个”户外”完事,结果背景要么空要么乱。好的场景要有地点、时间、天气、氛围物。”秋天傍晚的京都岚山,铺满红枫落叶的石板小路,远处是被晚霞染红的竹林,空气里有细微的雾气”——这样写出来背景就不会是随便一片树林。 风格 决定一张图的调性。摄影类有商业摄影、胶片摄影、宝丽来、黑白纪实;绘画类有油画、水彩、水墨、国画工笔、浮世绘;数字艺术类有 3D 渲染、CG 插画、赛博朋克;动漫类有新海诚、宫崎骏、京都动画。这里有个杀手锏: 直接用艺术家的名字做风格锚点 ,比如 “in the style of Makoto Shinkai”,效果通常比写一堆形容词还准,因为模型见过太多带艺术家标签的作品。 光线 是很多人没注意的质感来源。如果你的图总是”一看就是 AI 做的”,八成是光线太弱。收藏这几个词:柔光适合人像,硬光适合戏剧感,逆光让轮廓发光,伦勃朗光是经典肖像光,黄金时刻(日出日落前的暖色光)是万能加分项,蓝调时刻(日落后深蓝天空)是城市夜景利器,体积光能看见光束穿过空气、森林教堂特别好用。随便加一个到提示词里,图的质感立刻上一个档次。 镜头 是很多人忽略但极其重要的一项。景别决定你离主体多近:特写、半身、全身、远景。角度决定你从哪看:平视、俯视、仰视、鸟瞰、过肩。镜头类型是专业词汇,非常好用:广角、长焦(背景虚化强)、微距、鱼眼。甚至可以直接写 35mm、50mm、85mm,模型是懂的。”一个女孩在樱花树下” vs “一个女孩在樱花树下,85mm 人像镜头,浅景深,半身特写,平视角度,背景樱花虚化成光斑”,后者立刻就有了专业感。 画质 是末尾的 buff:4K、高细节 | ← s1o1 | |||||||||||
| s5 | 用 (AI生图工具) 按修订 提示词 重新 元素生成 稳定 成品图 | 主体生成 | 图像 | 程序控制类型/指令/提示词 | <占位>(原文未提供修订后的完整提示词) | ← s4o1 | (AI生图工具) | 生成/元素生成 | 按修订提示词重新生成,保持其他参数不变 | 内容类型/成品/成品图 | s5o1 <法国女孩坐在巴黎咖啡馆靠窗的成品图,电影感摄影,胶片质感,暖黄室内光> | → 返回成品图 | |
| 需求 | 输入 | 实现 | 输出 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| # | 目的 | 作用 | 实质 | 形式 | 类型 | 值 | 来源 | 外部工具 | 动作 | 指令 | 类型 | 值 | 去处 |
| s1 | 用 claude 反推 参考图 对应的完整生图 提示词 | 预处理 | 提示词 | 内容类型/素材/化学变化/参考图 | <用户从 civitai/lexica.art/PromptHero/MJ 展示页挑选的喜欢的作品图> | ← 工序输入 | claude | 提取/化学提取/反推 | 以四要素格式输出:主体/光线/镜头/风格,输出标准英文逗号分隔提示词 | 程序控制类型/指令/提示词 | s1o1 a 30-year-old man sitting by a café window, short dark hair slightly disheveled, wearing a navy wool overcoat, right hand holding a steaming latte, cinematic photography, 85mm portrait lens, warm window sidelight, shallow depth of field half-body close-up | → s2 | |
| 程序控制类型/指令/提示词 | 更进一步的玩法:把一张你喜欢的别人的图截图,扔给 Claude、GPT-4o 这种多模态模型,说”帮我反推一条能生成这种图的 Midjourney 提示词,要包含主体、光线、镜头、风格”。它会给你一条相当能用的东西,再微调就行。这招我用了半年,词感长得飞快。 | ← 工序输入 | |||||||||||
| s2 | 在 提示词 基础上加个性化需求,调整 得到微调后 提示词 | 预处理 | 提示词 | 程序控制类型/指令/提示词 | 为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。 | ← s1o1 | human | 修改/变/调整 | 程序控制类型/指令/提示词 | s2o1 a 30-year-old man sitting by a café window, short dark hair slightly disheveled, wearing a navy wool overcoat, right hand holding a steaming latte, cinematic photography, 85mm portrait lens, warm window sidelight, shallow depth of field half-body close-up, 4K high detail, award-winning photography | → s3 | ||
| s3 | 以 参考图 为参照,用 (AI生图工具) 按 提示词 元素生成 风格一致 成品图 | 主体生成 | 图像 | 程序控制类型/指令/提示词 | a 30-year-old man sitting by a café window, short dark hair slightly disheveled, wearing a navy wool overcoat, right hand holding a steaming latte, cinematic photography, 85mm portrait lens, warm window sidelight, shallow depth of field half-body close-up, 4K high detail, award-winning photography | ← s2o1 | (AI生图工具) | 生成/元素生成 | 启用参考图模式(--sref 或 --cref 或 IPAdapter),控制风格/角色一致性 | 内容类型/成品/成品图 | s3o1 <保持与参考图风格或角色一致的生成图> | → 返回风格一致生成图 | |
| 内容类型/素材/化学变化/参考图 | <与 s1 相同的参考图,以 --sref/--cref/IPAdapter 形式传入> | ← 工序输入 | |||||||||||
| 需求 | 输入 | 实现 | 输出 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| # | 目的 | 作用 | 实质 | 形式 | 类型 | 值 | 来源 | 外部工具 | 动作 | 指令 | 类型 | 值 | 去处 |
| s1 | 按三要素(文字/字体/设计风格)元素生成 文字渲染 提示词 | 预处理 | 提示词 | 文字排版 | 程序控制类型/指令/描述 | 为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。 | ← 工序输入 | human | 生成/元素生成 | 程序控制类型/指令/提示词 | s1o1 为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。 | → s2 | |
| s2 | 用 nano_banana 按 提示词 元素生成 带准确文字的 成品图 | 主体生成 | 图像 | 文字排版 | 程序控制类型/指令/提示词 | 为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。 | ← s1o1 | nano_banana | 生成/元素生成 | 优先确保文字准确渲染,不出现乱码 | 内容类型/成品/成品图 | s2o1 <含 The Daily Grind 文字的 Logo 图,黑白配色,极简现代风格> | → 返回带文字成品图 |