原文: 抽了几百次卡之后,我才搞明白 AI 生图的提示词该怎么写
知乎 · 情酱 · 2026-04-06

摘要: 系统讲解 AI 生图提示词写法:八要素框架(主体/细节/动作/场景/风格/光线/镜头/画质)+ 六大实用方法论(反推法、分层迭代、问题加词清单、参考图法、文字渲染、权重负面词),附各主流工具(MJ/SD/Nano Banana/GPT-4o/国产)使用口味对比。


先说个扎心的事

你有没有过这种经历:脑子里明明有幅特别清楚的画面,夕阳下一个女孩在海边回头笑,结果打进生图工具里,出来的要么脸崩了,要么背景糊成一片,要么干脆给你生成了一个站在游泳池边的中年妇女。

然后你就开始抽卡。一张不行两张,两张不行十张,十张不行换工具。从 Midjourney 抽到 SD,从 SD 抽到 Nano Banana,最后发现问题不在工具。

我自己在这件事上交过不少学费。有段时间天天泡在各种工具里,一个画面抽二三十次都不对,特别挫败。后来琢磨出来:出图质量八成取决于提示词怎么写,两成才是模型本身。同样一个模型,有人做出能上杂志的广告大片,有人做出一堆表情扭曲的废图,区别就在那几行字。

先搞懂 AI 在想什么

主流生图模型本质都是扩散模型。训练过程说白了就是看了几亿张图和对应的文字描述,学会了”这样的文字”对应”这样的画面”。

这里有两个事实很重要。

AI 只认识它见过的词。

你写”赛博朋克”它懂,因为训练集里有大量打了这个标签的图。但你写

我老家那种氛围

它就懵了。提示词要用公共的、有明确视觉指向的词,不是你的私人记忆。

AI 在做概率拟合,不是理解。

你写”一个红头发的女孩”,它不是真理解这几个字,而是从训练数据里抽出这几个标签一起出现时的视觉统计。描述越模糊,它越往”最常见的那种”靠,结果就是你觉得”好像是这个但又好像不对”。

两个原则:具体比抽象好,视觉比感受好。”美女”是抽象,”22 岁亚洲女孩齐刘海圆脸穿白色针织衫”是具体;”温馨”是感受,”暖色调,浅景深,壁炉火光”是视觉。

八要素公式:一条提示词该有的骨架

我把一条完整的提示词拆成八项。

写的时候心里过一遍这张表,挨个问自己”这块交代了没”。

分别为

主体、细节、动作、场景、风格、光线、镜头、画质。

主体

写在最前面,因为大多数模型对前面的词权重更高。要回答三个问题:是什么、多少个、核心特征。反面:”一个女孩。”正面:”一个 22 岁的东亚女孩,齐肩黑发,丹凤眼,穿米白色羊毛高领毛衣。” 有个小窍门,想生成特定长相可以用名人做锚点,”气质类似周迅”“长相接近艾玛·沃森”,比一堆形容词准得多。商业用途要避开侵权,自己玩无所谓。

细节

是把骨架变成血肉的那一步。服装的材质款式颜色配饰、头发的状态、表情、姿势、手部动作、物品的磨损和反光。很多人只写到主体就没了,这是最大的浪费。”一个男人坐在咖啡馆里”和”一个 30 岁左右的男人坐在靠窗的位置,深棕色短发微微凌乱,穿藏青色羊毛大衣配白衬衫,右手握着一杯冒热气的拿铁,左手翻开一本硬皮书,眉头微蹙像在想什么”——你把这两句分别丢进同一个工具跑一下,差距不用我多说。

动作

让画面动起来。哪怕你画一个站着的人,加”微微侧身准备转头”画面立刻有呼吸感。常用词:奔跑、回眸、伸手、低头、仰望、蜷缩、沉思。

场景

就是背景环境。很多人随便写个”户外”完事,结果背景要么空要么乱。好的场景要有地点、时间、天气、氛围物。”秋天傍晚的京都岚山,铺满红枫落叶的石板小路,远处是被晚霞染红的竹林,空气里有细微的雾气”——这样写出来背景就不会是随便一片树林。

风格

决定一张图的调性。摄影类有商业摄影、胶片摄影、宝丽来、黑白纪实;绘画类有油画、水彩、水墨、国画工笔、浮世绘;数字艺术类有 3D 渲染、CG 插画、赛博朋克;动漫类有新海诚、宫崎骏、京都动画。这里有个杀手锏:

直接用艺术家的名字做风格锚点

,比如 “in the style of Makoto Shinkai”,效果通常比写一堆形容词还准,因为模型见过太多带艺术家标签的作品。

光线

是很多人没注意的质感来源。如果你的图总是”一看就是 AI 做的”,八成是光线太弱。收藏这几个词:柔光适合人像,硬光适合戏剧感,逆光让轮廓发光,伦勃朗光是经典肖像光,黄金时刻(日出日落前的暖色光)是万能加分项,蓝调时刻(日落后深蓝天空)是城市夜景利器,体积光能看见光束穿过空气、森林教堂特别好用。随便加一个到提示词里,图的质感立刻上一个档次。

镜头

是很多人忽略但极其重要的一项。景别决定你离主体多近:特写、半身、全身、远景。角度决定你从哪看:平视、俯视、仰视、鸟瞰、过肩。镜头类型是专业词汇,非常好用:广角、长焦(背景虚化强)、微距、鱼眼。甚至可以直接写 35mm、50mm、85mm,模型是懂的。”一个女孩在樱花树下” vs “一个女孩在樱花树下,85mm 人像镜头,浅景深,半身特写,平视角度,背景樱花虚化成光斑”,后者立刻就有了专业感。

画质

是末尾的 buff:4K、高细节、锐利对焦、专业摄影、获奖作品。放最后逗号分隔。

一个完整示例:

一位 25 岁的法国女孩,栗色卷发披肩,穿米色羊毛大衣和暗红色围巾,手里捧着一杯冒热气的咖啡,半侧身坐着望向窗外,巴黎老街区的咖啡馆靠窗位置,窗外下着细雨,玻璃上有雨滴,远处模糊的街灯和行人,电影感摄影,胶片质感,暖黄室内光与冷色窗外对比,逆光勾勒头发轮廓,85mm 镜头浅景深半身特写,4K 高细节,获奖摄影。

把这条丢进任何一个主流工具,出图都会很稳定。每一个可能让 AI 自由发挥的缝隙都被你堵住了。

几个最实用的方法论

光有公式还不够,下面这几个方法是我觉得最值钱的部分。

方法一:抄作业反推法

自己从零开始写提示词太费劲,最快的进步方式是抄作业。去 civitai、lexica.art、PromptHero、Midjourney 官方展示页,找到你喜欢的图,直接看它的提示词。看多了你会发现高手写的提示词有共同的结构和爱用的词,慢慢就内化成你自己的库。

更进一步的玩法:把一张你喜欢的别人的图截图,扔给 Claude、GPT-4o 这种多模态模型,说”帮我反推一条能生成这种图的 Midjourney 提示词,要包含主体、光线、镜头、风格”。它会给你一条相当能用的东西,再微调就行。这招我用了半年,词感长得飞快。

方法二:分层迭代,一次只改一块

新手最大的问题是每次都从头重写。正确的做法是

分层迭代

:先确定主体和构图对不对,再调风格和光线,最后抠细节。每次只改一小块,其他保持不动。

我自己的 debug 流程是这样的:

第一轮只写主体 + 场景 + 基本风格,看 AI 理解的方向对不对。方向错了改方向,方向对了进下一轮。

第二轮加光线和镜头。如果出图变丑了说明镜头或光线词和前面的风格冲突,挑一个删掉。

第三轮抠细节:服装、表情、手部、配饰。发现某部位反复崩就加负面词或调权重。

这个流程比一次写 80 个词跑 20 张效率高得多。你每一步都知道问题出在哪。

方法三:问题 → 加词清单

生图最挫败的是”差一点点”,下面是我自己整理的对症下药清单,建议收藏。

脸崩/五官扭曲

:加 detailed face, symmetric face, sharp eyes;负面词加 deformed face, asymmetric

手崩(最常见的坑)

:加 detailed hands, five fingers;负面词 extra fingers, missing fingers, bad hands, mutated hands

画面太平没氛围

:缺光线词。加 cinematic lighting, volumetric light, rim light

画面太暗

:加 bright, well-lit, soft daylight

看起来太假太 AI

:加 film grain, analog photography, 35mm film, slight imperfection

背景糊成一团

:具体描述背景物体,或者加 detailed background, intricate environment

人物没表情

:直接描述情绪,smiling softly, melancholic expression, determined look

构图太居中呆板

:加 rule of thirds composition, off-center

颜色不对

:写具体的颜色名或 hex 码,或用 warm tone / cool tone / muted colors 控制整体色调

方法四:参考图比提示词更强

如果你的工具支持图生图或者参考图,

一张参考图能顶 50 个形容词

。这是个很多人没意识到的事。

Midjourney 的

--sref

(风格参考)、

--cref

(角色参考),Nano Banana 的上传图片编辑,SD 的 ControlNet 和 IPAdapter,都是走这条路。你直接把想要的风格或人物扔给它,让它照着画,比你写多少提示词都准。

常用场景:想保持角色一致性(同一个人不同场景),上传一张角色图作 cref;想复刻某种色调氛围,上传一张参考图作 sref;想复用某个构图,用 ControlNet 的 canny 或 openpose。

方法五:文字渲染只用 Nano Banana 或 GPT-4o

如果你要做 logo、海报、表情包这种带文字的图,

别再用 Midjourney 和 SD 瞎折腾了

,它们出文字十次有九次是乱码。直接用 Nano Banana(Gemini 3 Pro Image)或 GPT-4o,这俩是目前文字渲染最准的。

写法上要明确指定三件事:要显示的文字内容、字体风格(描述性的,比如”俐落的无衬线字”“衬线字手写感”)、整体设计风格。比如:”为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。”这样出来的基本能直接用。

方法六:权重和负面词的真正用法

权重不是越高越好。SD 里

(keyword:1.5)

已经很强了,超过 1.7 画面容易崩。负面词也不是越多越好,堆太多会互相干扰,保留一个通用模板就够:

low quality, blurry, deformed, bad anatomy, bad hands, extra fingers, watermark, text, ugly

MJ 的

::

分权重很少有人用,但对比很强烈的画面特别有用,比如

a burning ice cube::2 realistic::1

能强迫模型理解这是矛盾组合。

几个主流工具的口味差异

同一条提示词在不同工具上效果天差地别,知道各自的口味很重要。

Midjourney 喜欢简洁有力。

它本身有很强的美学倾向,不用写太多修饰词也能出好图。但它对参数敏感,

--ar 16:9

(宽高比)、

--stylize

(风格化强度)、

--chaos

(随机度)这些要会用。典型写法是英文、逗号分隔、短词组、参数放最后。

Stable Diffusion 喜欢关键词堆叠。

SD 没那么强的内置审美,你得把每个细节都写清楚,并且善用权重。典型特征是开头堆一排 masterpiece, best quality 之类的质量词,中间是密集的关键词和权重。

Nano Banana 喜欢自然语言。

它本质上就是个大语言模型在生图,用日常对话说话效果最好。两个杀手锏:

文字渲染准

(做 logo 海报优先选)、

对话式编辑

(生成后可以说”把背景换成黄昏”“给她加眼镜”“去掉左边的杯子”,精准修改不破坏其他部分)。这个能力用过一次就回不去了。

GPT-4o 的强项是理解长复杂指令。

你可以直接写:”要那种王家卫电影的感觉,潮湿的空气和迷离的灯光。”它会自己理解这等于霓虹、雨夜、冷暖对比、手持抓拍感。

国产工具

像即梦、可灵、通义万相,对中文支持最好,对中国元素(汉服、古建筑、山水)的理解远超海外模型。做国风图直接用国产工具加中文提示词,比硬用 Midjourney 强得多。

最后:提示词其实是一种翻译

网上很多人把提示词叫咒语,好像得念对了才能召唤出好图。但我越写越觉得,

提示词的本质是翻译

。把你脑子里那幅模糊的画面,翻译成 AI 能听懂的语言。

所以写好提示词的前提,是你自己先想清楚要什么。如果你脑子里只有一个模糊的”好看的女孩”,再强的模型也救不了你。但如果你能先看见那张图,看见她的年龄、表情、衣服的颜色、站的位置、身后的光,然后把这些一条条翻译出来,AI 就会给你一个接近九成还原的结果。

AI 生图练的其实是两种能力:视觉想象力和描述精确度。前者是审美素养,后者是表达训练。这两样练多了,不光生图变强,你的审美、写作、对视觉信息的敏感度都会跟着涨。

别把它当玄学,当成一门可以系统学的手艺。今天讲的八要素、抄作业反推、分层迭代、问题加词清单、参考图大法、各工具的口味,拿去用,改,变成你自己的东西。一个月之后你写提示词的速度和命中率会比现在高一个数量级。我就是这么过来的。

需求 # 目的 作用 实质 形式
输入 类型 来源
实现 外部工具 动作 指令
输出 类型 去处
高亮推断 点击列名 ↔ 显示/隐藏 · 点击组名 ↔ 整组切换 · 「推」角标 hover 看推断理由
工序 按八要素框架从零写提示词并调试生图 #目的: 学习并运用主体/细节/动作/场景/风格/光线/镜头/画质八要素框架写出完整提示词,通过分层迭代法和问题加词清单调试出稳定可复现的成品图 类别: 学习 #平台: 知乎 · #作者: 情酱 · case: B_zhihu_20245189
输入
灵感参考图 灵感参考图 — (可选)用户已有的目标画面风格参考图,供撰写提示词时参照
返回
内容类型/成品/成品图
需求 输入 实现 输出
# 目的 作用 实质 形式 类型 来源 外部工具 动作 指令 类型 去处
s1
对标内容解构 方法论,得到可复用的 知识库
工艺规约图像生成提示词内容类型/素材/化学变化/对标内容抽了几百次卡之后,我才搞明白 AI 生图的提示词该怎么写← 教程原文human提取/化学提取/解构知识类型/知识库s1o1 两个原则:具体比抽象好,视觉比感受好。”美女”是抽象,”22 岁亚洲女孩齐刘海圆脸穿白色针织衫”是具体;”温馨”是感受,”暖色调,浅景深,壁炉火光”是视觉。 八要素公式:一条提示词该有的骨架 我把一条完整的提示词拆成八项。 写的时候心里过一遍这张表,挨个问自己”这块交代了没”。 分别为 主体、细节、动作、场景、风格、光线、镜头、画质。 主体 写在最前面,因为大多数模型对前面的词权重更高。要回答三个问题:是什么、多少个、核心特征。反面:”一个女孩。”正面:”一个 22 岁的东亚女孩,齐肩黑发,丹凤眼,穿米白色羊毛高领毛衣。” 有个小窍门,想生成特定长相可以用名人做锚点,”气质类似周迅”“长相接近艾玛·沃森”,比一堆形容词准得多。商业用途要避开侵权,自己玩无所谓。 细节 是把骨架变成血肉的那一步。服装的材质款式颜色配饰、头发的状态、表情、姿势、手部动作、物品的磨损和反光。很多人只写到主体就没了,这是最大的浪费。”一个男人坐在咖啡馆里”和”一个 30 岁左右的男人坐在靠窗的位置,深棕色短发微微凌乱,穿藏青色羊毛大衣配白衬衫,右手握着一杯冒热气的拿铁,左手翻开一本硬皮书,眉头微蹙像在想什么”——你把这两句分别丢进同一个工具跑一下,差距不用我多说。 动作 让画面动起来。哪怕你画一个站着的人,加”微微侧身准备转头”画面立刻有呼吸感。常用词:奔跑、回眸、伸手、低头、仰望、蜷缩、沉思。 场景 就是背景环境。很多人随便写个”户外”完事,结果背景要么空要么乱。好的场景要有地点、时间、天气、氛围物。”秋天傍晚的京都岚山,铺满红枫落叶的石板小路,远处是被晚霞染红的竹林,空气里有细微的雾气”——这样写出来背景就不会是随便一片树林。 风格 决定一张图的调性。摄影类有商业摄影、胶片摄影、宝丽来、黑白纪实;绘画类有油画、水彩、水墨、国画工笔、浮世绘;数字艺术类有 3D 渲染、CG 插画、赛博朋克;动漫类有新海诚、宫崎骏、京都动画。这里有个杀手锏: 直接用艺术家的名字做风格锚点 ,比如 “in the style of Makoto Shinkai”,效果通常比写一堆形容词还准,因为模型见过太多带艺术家标签的作品。 光线 是很多人没注意的质感来源。如果你的图总是”一看就是 AI 做的”,八成是光线太弱。收藏这几个词:柔光适合人像,硬光适合戏剧感,逆光让轮廓发光,伦勃朗光是经典肖像光,黄金时刻(日出日落前的暖色光)是万能加分项,蓝调时刻(日落后深蓝天空)是城市夜景利器,体积光能看见光束穿过空气、森林教堂特别好用。随便加一个到提示词里,图的质感立刻上一个档次。 镜头 是很多人忽略但极其重要的一项。景别决定你离主体多近:特写、半身、全身、远景。角度决定你从哪看:平视、俯视、仰视、鸟瞰、过肩。镜头类型是专业词汇,非常好用:广角、长焦(背景虚化强)、微距、鱼眼。甚至可以直接写 35mm、50mm、85mm,模型是懂的。”一个女孩在樱花树下” vs “一个女孩在樱花树下,85mm 人像镜头,浅景深,半身特写,平视角度,背景樱花虚化成光斑”,后者立刻就有了专业感。 画质 是末尾的 buff:4K、高细节→ s2, → s4
s2
知识库 为骨架,元素生成 一条完整的八要素 提示词
预处理提示词知识类型/知识库两个原则:具体比抽象好,视觉比感受好。”美女”是抽象,”22 岁亚洲女孩齐刘海圆脸穿白色针织衫”是具体;”温馨”是感受,”暖色调,浅景深,壁炉火光”是视觉。 八要素公式:一条提示词该有的骨架 我把一条完整的提示词拆成八项。 写的时候心里过一遍这张表,挨个问自己”这块交代了没”。 分别为 主体、细节、动作、场景、风格、光线、镜头、画质。 主体 写在最前面,因为大多数模型对前面的词权重更高。要回答三个问题:是什么、多少个、核心特征。反面:”一个女孩。”正面:”一个 22 岁的东亚女孩,齐肩黑发,丹凤眼,穿米白色羊毛高领毛衣。” 有个小窍门,想生成特定长相可以用名人做锚点,”气质类似周迅”“长相接近艾玛·沃森”,比一堆形容词准得多。商业用途要避开侵权,自己玩无所谓。 细节 是把骨架变成血肉的那一步。服装的材质款式颜色配饰、头发的状态、表情、姿势、手部动作、物品的磨损和反光。很多人只写到主体就没了,这是最大的浪费。”一个男人坐在咖啡馆里”和”一个 30 岁左右的男人坐在靠窗的位置,深棕色短发微微凌乱,穿藏青色羊毛大衣配白衬衫,右手握着一杯冒热气的拿铁,左手翻开一本硬皮书,眉头微蹙像在想什么”——你把这两句分别丢进同一个工具跑一下,差距不用我多说。 动作 让画面动起来。哪怕你画一个站着的人,加”微微侧身准备转头”画面立刻有呼吸感。常用词:奔跑、回眸、伸手、低头、仰望、蜷缩、沉思。 场景 就是背景环境。很多人随便写个”户外”完事,结果背景要么空要么乱。好的场景要有地点、时间、天气、氛围物。”秋天傍晚的京都岚山,铺满红枫落叶的石板小路,远处是被晚霞染红的竹林,空气里有细微的雾气”——这样写出来背景就不会是随便一片树林。 风格 决定一张图的调性。摄影类有商业摄影、胶片摄影、宝丽来、黑白纪实;绘画类有油画、水彩、水墨、国画工笔、浮世绘;数字艺术类有 3D 渲染、CG 插画、赛博朋克;动漫类有新海诚、宫崎骏、京都动画。这里有个杀手锏: 直接用艺术家的名字做风格锚点 ,比如 “in the style of Makoto Shinkai”,效果通常比写一堆形容词还准,因为模型见过太多带艺术家标签的作品。 光线 是很多人没注意的质感来源。如果你的图总是”一看就是 AI 做的”,八成是光线太弱。收藏这几个词:柔光适合人像,硬光适合戏剧感,逆光让轮廓发光,伦勃朗光是经典肖像光,黄金时刻(日出日落前的暖色光)是万能加分项,蓝调时刻(日落后深蓝天空)是城市夜景利器,体积光能看见光束穿过空气、森林教堂特别好用。随便加一个到提示词里,图的质感立刻上一个档次。 镜头 是很多人忽略但极其重要的一项。景别决定你离主体多近:特写、半身、全身、远景。角度决定你从哪看:平视、俯视、仰视、鸟瞰、过肩。镜头类型是专业词汇,非常好用:广角、长焦(背景虚化强)、微距、鱼眼。甚至可以直接写 35mm、50mm、85mm,模型是懂的。”一个女孩在樱花树下” vs “一个女孩在樱花树下,85mm 人像镜头,浅景深,半身特写,平视角度,背景樱花虚化成光斑”,后者立刻就有了专业感。 画质 是末尾的 buff:4K、高细节← s1o1human生成/元素生成程序控制类型/指令/提示词s2o1 一位 25 岁的法国女孩,栗色卷发披肩,穿米色羊毛大衣和暗红色围巾,手里捧着一杯冒热气的咖啡,半侧身坐着望向窗外,巴黎老街区的咖啡馆靠窗位置,窗外下着细雨,玻璃上有雨滴,远处模糊的街灯和行人,电影感摄影,胶片质感,暖黄室内光与冷色窗外对比,逆光勾勒头发轮廓,85mm 镜头浅景深半身特写,4K 高细节,获奖摄影。→ s3
内容类型/素材/化学变化/参考图<用户可选提供的灵感参考图,对应目标画面风格>← 工序输入
s3
(AI生图工具)提示词 元素生成 候选 样图
主体生成图像程序控制类型/指令/提示词一位 25 岁的法国女孩,栗色卷发披肩,穿米色羊毛大衣和暗红色围巾,手里捧着一杯冒热气的咖啡,半侧身坐着望向窗外,巴黎老街区的咖啡馆靠窗位置,窗外下着细雨,玻璃上有雨滴,远处模糊的街灯和行人,电影感摄影,胶片质感,暖黄室内光与冷色窗外对比,逆光勾勒头发轮廓,85mm 镜头浅景深半身特写,4K 高细节,获奖摄影。← s2o1(AI生图工具)生成/元素生成按提示词直接生成,不做额外修改内容类型/半成品/原子/样图s3o1 <AI生成的候选人像图,初步呈现法国女孩坐在巴黎咖啡馆场景>→ s4
s4
诊断 样图 问题,按 知识库 加词清单 添加 修正词得修订 提示词
预处理提示词内容类型/半成品/原子/样图<AI生成的候选人像图,初步呈现法国女孩坐在巴黎咖啡馆场景>← s3o1human修改/增/添加程序控制类型/指令/提示词s4o1 <占位>(原文未提供修订后的完整提示词)→ s5
知识类型/知识库两个原则:具体比抽象好,视觉比感受好。”美女”是抽象,”22 岁亚洲女孩齐刘海圆脸穿白色针织衫”是具体;”温馨”是感受,”暖色调,浅景深,壁炉火光”是视觉。 八要素公式:一条提示词该有的骨架 我把一条完整的提示词拆成八项。 写的时候心里过一遍这张表,挨个问自己”这块交代了没”。 分别为 主体、细节、动作、场景、风格、光线、镜头、画质。 主体 写在最前面,因为大多数模型对前面的词权重更高。要回答三个问题:是什么、多少个、核心特征。反面:”一个女孩。”正面:”一个 22 岁的东亚女孩,齐肩黑发,丹凤眼,穿米白色羊毛高领毛衣。” 有个小窍门,想生成特定长相可以用名人做锚点,”气质类似周迅”“长相接近艾玛·沃森”,比一堆形容词准得多。商业用途要避开侵权,自己玩无所谓。 细节 是把骨架变成血肉的那一步。服装的材质款式颜色配饰、头发的状态、表情、姿势、手部动作、物品的磨损和反光。很多人只写到主体就没了,这是最大的浪费。”一个男人坐在咖啡馆里”和”一个 30 岁左右的男人坐在靠窗的位置,深棕色短发微微凌乱,穿藏青色羊毛大衣配白衬衫,右手握着一杯冒热气的拿铁,左手翻开一本硬皮书,眉头微蹙像在想什么”——你把这两句分别丢进同一个工具跑一下,差距不用我多说。 动作 让画面动起来。哪怕你画一个站着的人,加”微微侧身准备转头”画面立刻有呼吸感。常用词:奔跑、回眸、伸手、低头、仰望、蜷缩、沉思。 场景 就是背景环境。很多人随便写个”户外”完事,结果背景要么空要么乱。好的场景要有地点、时间、天气、氛围物。”秋天傍晚的京都岚山,铺满红枫落叶的石板小路,远处是被晚霞染红的竹林,空气里有细微的雾气”——这样写出来背景就不会是随便一片树林。 风格 决定一张图的调性。摄影类有商业摄影、胶片摄影、宝丽来、黑白纪实;绘画类有油画、水彩、水墨、国画工笔、浮世绘;数字艺术类有 3D 渲染、CG 插画、赛博朋克;动漫类有新海诚、宫崎骏、京都动画。这里有个杀手锏: 直接用艺术家的名字做风格锚点 ,比如 “in the style of Makoto Shinkai”,效果通常比写一堆形容词还准,因为模型见过太多带艺术家标签的作品。 光线 是很多人没注意的质感来源。如果你的图总是”一看就是 AI 做的”,八成是光线太弱。收藏这几个词:柔光适合人像,硬光适合戏剧感,逆光让轮廓发光,伦勃朗光是经典肖像光,黄金时刻(日出日落前的暖色光)是万能加分项,蓝调时刻(日落后深蓝天空)是城市夜景利器,体积光能看见光束穿过空气、森林教堂特别好用。随便加一个到提示词里,图的质感立刻上一个档次。 镜头 是很多人忽略但极其重要的一项。景别决定你离主体多近:特写、半身、全身、远景。角度决定你从哪看:平视、俯视、仰视、鸟瞰、过肩。镜头类型是专业词汇,非常好用:广角、长焦(背景虚化强)、微距、鱼眼。甚至可以直接写 35mm、50mm、85mm,模型是懂的。”一个女孩在樱花树下” vs “一个女孩在樱花树下,85mm 人像镜头,浅景深,半身特写,平视角度,背景樱花虚化成光斑”,后者立刻就有了专业感。 画质 是末尾的 buff:4K、高细节← s1o1
s5
(AI生图工具) 按修订 提示词 重新 元素生成 稳定 成品图
主体生成图像程序控制类型/指令/提示词<占位>(原文未提供修订后的完整提示词)← s4o1(AI生图工具)生成/元素生成按修订提示词重新生成,保持其他参数不变内容类型/成品/成品图s5o1 <法国女孩坐在巴黎咖啡馆靠窗的成品图,电影感摄影,胶片质感,暖黄室内光>→ 返回成品图
工序 抄作业反推法 + 参考图模式辅助生图 #目的: 借助多模态大模型从喜欢的他人作品中反推提示词,结合生图工具参考图模式(--sref/--cref/IPAdapter/上传图)保持风格或角色一致性,大幅降低从零写提示词的成本 类别: 学习 #平台: 知乎 · #作者: 情酱 · case: B_zhihu_20245189
输入
内容类型/素材/化学变化/参考图 目标风格或角色参考图 — 在 civitai/lexica.art/PromptHero/MJ 展示页等平台找到的喜欢的作品图
返回
风格一致生成图
需求 输入 实现 输出
# 目的 作用 实质 形式 类型 来源 外部工具 动作 指令 类型 去处
s1
claude 反推 参考图 对应的完整生图 提示词
预处理提示词内容类型/素材/化学变化/参考图<用户从 civitai/lexica.art/PromptHero/MJ 展示页挑选的喜欢的作品图>← 工序输入claude提取/化学提取/反推以四要素格式输出:主体/光线/镜头/风格,输出标准英文逗号分隔提示词程序控制类型/指令/提示词s1o1 a 30-year-old man sitting by a café window, short dark hair slightly disheveled, wearing a navy wool overcoat, right hand holding a steaming latte, cinematic photography, 85mm portrait lens, warm window sidelight, shallow depth of field half-body close-up→ s2
程序控制类型/指令/提示词更进一步的玩法:把一张你喜欢的别人的图截图,扔给 Claude、GPT-4o 这种多模态模型,说”帮我反推一条能生成这种图的 Midjourney 提示词,要包含主体、光线、镜头、风格”。它会给你一条相当能用的东西,再微调就行。这招我用了半年,词感长得飞快。← 工序输入
s2
提示词 基础上加个性化需求,调整 得到微调后 提示词
预处理提示词程序控制类型/指令/提示词为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。← s1o1human修改/变/调整程序控制类型/指令/提示词s2o1 a 30-year-old man sitting by a café window, short dark hair slightly disheveled, wearing a navy wool overcoat, right hand holding a steaming latte, cinematic photography, 85mm portrait lens, warm window sidelight, shallow depth of field half-body close-up, 4K high detail, award-winning photography→ s3
s3
参考图 为参照,用 (AI生图工具)提示词 元素生成 风格一致 成品图
主体生成图像程序控制类型/指令/提示词a 30-year-old man sitting by a café window, short dark hair slightly disheveled, wearing a navy wool overcoat, right hand holding a steaming latte, cinematic photography, 85mm portrait lens, warm window sidelight, shallow depth of field half-body close-up, 4K high detail, award-winning photography← s2o1(AI生图工具)生成/元素生成启用参考图模式(--sref 或 --cref 或 IPAdapter),控制风格/角色一致性内容类型/成品/成品图s3o1 <保持与参考图风格或角色一致的生成图>→ 返回风格一致生成图
内容类型/素材/化学变化/参考图<与 s1 相同的参考图,以 --sref/--cref/IPAdapter 形式传入>← 工序输入
工序 文字渲染生成带文字图像 #目的: 使用 Nano Banana 或 GPT-4o 的文字渲染能力,按文字内容+字体风格+整体设计风格三要素撰写提示词,生成 Logo/海报/表情包等需要准确嵌入文字的图像 类别: 产物创造 #平台: 知乎 · #作者: 情酱 · case: B_zhihu_20245189
输入
设计需求描述 品牌或设计需求 — 需要生成的品牌名称、要显示的文字内容及用途
返回
带文字成品图
需求 输入 实现 输出
# 目的 作用 实质 形式 类型 来源 外部工具 动作 指令 类型 去处
s1
按三要素(文字/字体/设计风格)元素生成 文字渲染 提示词
预处理提示词文字排版程序控制类型/指令/描述为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。← 工序输入human生成/元素生成程序控制类型/指令/提示词s1o1 为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。→ s2
s2
nano_banana提示词 元素生成 带准确文字的 成品图
主体生成图像文字排版程序控制类型/指令/提示词为一家叫 The Daily Grind 的咖啡店设计 logo,文字是 The Daily Grind,采用简洁醒目的无衬线字,包含一个抽象咖啡豆图标与字体自然融合,黑白配色,极简现代。← s1o1nano_banana生成/元素生成优先确保文字准确渲染,不出现乱码内容类型/成品/成品图s2o1 <含 The Daily Grind 文字的 Logo 图,黑白配色,极简现代风格>→ 返回带文字成品图