摘要: 基于 Google 官方视频理解、Files API、上下文缓存、媒体分辨率、结构化输出与社区高颗粒度模板,系统讲清如何用 Gemini 从视频逆向拆回可复用的生成条件,并把结果沉淀成长期可复用的 prompt 资产。 这篇文章写给已经在用
基于 Google 官方视频理解、Files API、上下文缓存、媒体分辨率、结构化输出与社区高颗粒度模板,系统讲清如何用 Gemini 从视频逆向拆回可复用的生成条件,并把结果沉淀成长期可复用的 prompt 资产。
这篇文章写给已经在用 Runway、可灵、Pika、Veo 或同类工具的人。这里说的“反推提示词”,更接近逆向拆镜:从成片里把主体、动作、镜头、声音、空间关系和速度感重新捞出来,同时把该留白的地方留出来。
Gemini 能同时读视频帧、音频和时间戳,再配合强约束提示词或结构化输出,把证据层和改写层拆开。最后留下的,最好是一份能喂回视频模型、能复盘、能存档、还能继续改的中间稿,而不是一大段看上去很专业的说明文字。
下面的方法基于 Google 官方视频理解、Files API、上下文缓存、媒体分辨率、结构化输出、提示工程文档,以及社区流传很广的 HYPER-GRANULAR VIDEO ANALYSIS 模板。模型名字、AI Studio 界面、费率和配额会继续变,但“先观察、再重组、最后验收”的工作流不会变。若你打算把它用于他人作品的商业复刻,版权、商标、肖像权和平台条款仍要单独判断。
先记这 3 条:
先把视频拆成证据,再写 prompt,不要反过来。
unknowns
必须留着,不要把猜测装成参数。
验收看第二次生成出来的视频,不看分析稿写得多漂亮。
1. 学习目标
读完这篇文章,你至少应该能做到下面几件事:
判断一段视频适不适合做反推,避免一上来就整段上传碰运气。
说清“可用反推”和“原文还原”的区别,别把目标设错。
用 Gemini 把视频拆成时间块、字段和
unknowns
,而不是一段笼统总结。
根据素材长度、复用频次、动作密度选择 AI Studio、内嵌视频、Files API、上下文缓存和自定义
FPS
。
把分析稿重写成一条长 prompt、一条短 prompt 和一份 shot list。
用一套可复查的验收表判断偏差出在主体、动作、镜头还是节奏。
把一次反推沉淀成字段资产,而不是散落在聊天记录里的灵感碎片。
2. Gemini 适合做的是“可用反推”,不是“原文还原”
第一次上手最容易错的,就是把目标设成“还原原文”。可视频只是结果层,不是生产日志。你看到的是成片,不是当时的完整创作过程,所以它更适合帮你找回一组高概率生成条件,而不是唯一答案。
更实际的目标,是拿回一份可复用的生成条件清单。它足够接近,也留得出修改空间,能让你第二次生成时沿着正确方向收敛,这就已经有用了。
3. 一条
8
秒视频怎么被拆回 prompt
假设你手里有一段
8
秒竖屏 AI 视频:夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。
真做下来,不用十几轮提示,先把流程压成下面这 4 步就够了:
如果 Gemini 的观察稿里出现这些信息:
那它被重写成 prompt 后,大致会长成这样:
Verticalsmartphonefootageofayoungwomaninasilver-grayjacketrunningthrougharain-soakedneonalleyatnight,handheldwithsubtlenaturalmicro-shake,wetreflectionsonthepavement,sheglancesbackmid-stride,slightautofocusbreathingduringtheturn,urgentpace,realisticmotionphysics,layeredambientaudiowithbreathanddistanttirehiss,cinematicbutgrounded.
如果目标平台更偏好短 prompt,再压成一条硬字段版:
youngwomaninsilver-grayjacketrunningthroughaneonrainalleyatnight,verticalhandheldsmartphoneshot,subtlemicro-shake,glancebackmid-run,autofocusbreathing,wetreflections,realisticmotionphysics,urgenturbanambience
这两个版本都不是“原文还原”,但已经足够支持下一次生成。要的是这种能继续试、能继续改的逼近,不是文字考古。
4. 这条链路为什么能跑通
最后能不能像,往往取决于中间这两层有没有拆开:
先把视频拆成结构化证据,避免模型自由发挥式总结。
再把结构化证据改写成生成语言,避免你把整段分析稿原样塞进另一个视频模型。
很多返工都出在这两层没拆开。观察、推断、修辞、平台适配写成一锅,下一轮就不知道该改哪里。
5. 把入口、模型和采样先选对
很多教程一上来就盯着某个模型名。实际做反推时,型号的重要性通常排在任务设计后面。官方视频理解页给得更直接:所有 Gemini 模型都支持视频剪辑和自定义
FPS
,但
2.5
系列在这类视频处理上的质量明显更高;与此同时,当前模型列表已经进入
3.x / 3.5
时代。与其死背教程标题里的型号,不如把模型当成执行层,用同一条工作流去比较当前可用的档位。
5.1 先定输入通道
不同入口解决的是不同问题。手工诊断、重复追问、长视频复用、高动作精查,别混着做。
这里有一个容易把人看懵的官方细节:视频理解页在“上传视频文件”一段强调总请求体超过
20 MB
、视频较长或要复用时应使用 Files API;同页的输入方式总览又把内嵌数据写成小文件
<100 MB
的入口。别在这个边界上抬杠。工程上只要你满足下面任一条件,就直接切 Files API:
你准备围着同一条视频问两轮以上。
视频开始逼近长片段或接近
1
分钟。
请求体已经不再是“随手试一下”的量级。
你后面还要缓存、分段、做结构化输出或沉淀资产。
5.2 先选片段,再谈模型
第一次反推,别拿整条长片开刀。先找一个信息密度高、镜头意图单一的短片段。经验上最稳的是下面这种:
一个主要主体
一个主要动作意图
一个相对明确的镜头运动
不超过一个核心节奏变化
广告成片、混剪短片、多镜头 montage 不适合第一轮就整段喂进去。先拆片段,再做反推。
5.3 默认
1 FPS
是起点,不是答案
官方视频理解文档写得很明白:Gemini 默认按
1 FPS
抽取视频帧。对多数中低运动内容够用,但它会漏掉快动作、快切和高速镜头细节。你如果总觉得“差一口气”,先别急着怪 prompt,先怀疑采样粒度。
如果你只在 AI Studio 里操作,看不到这些参数,也没关系。最直接的替代方法只有两个:把视频切短,把问题收窄。
5.4 预算别靠感觉,要看
media_resolution
官方文档给了两组很有用的数字:
视频理解页把默认媒体分辨率的视频估成大约
300 tokens/秒
,低媒体分辨率大约
100 tokens/秒
,音频约
32 tokens/秒
。
媒体分辨率页把视频视觉帧的预算写成同一量级:Gemini
3
中,视频
LOW / MEDIUM
约
70 token/帧
,
HIGH
约
280 token/帧
。
这两份文档的口径不同,一个在讲“每秒总成本”,一个在讲“每帧视觉预算”,但它们都在提醒同一件事:别把整条长视频一路高精度硬跑到底。先低配扫轮廓,再把预算花在真正有问题的局部。
对于视频反推,大多数时候你不需要全程高分辨率。只有当你要读画面内密集文本,或者你确定差异出在极细小的帧内视觉信号时,再把
HIGH
打开。
6. 强系统提示词为什么有效,但别把它当咒语
Pastebin 上那份 HYPER-GRANULAR VIDEO ANALYSIS 模板之所以有用,不在于它用了多少夸张形容词,而在于它把官方多模态提示原则落得很硬:指令具体、任务拆分、输出格式固定、必要时先描述媒体再推理。
与其整段照搬,不如保住它抓住的 5 个字段:
其中最影响复现质量的一条,是“把镜头当成角色”。很多反推结果只写主体和场景,最后生成出来像内容,不像拍法。手持微颤、延迟跟拍、对焦呼吸、突然上扬的追拍,这些都不是装饰,而是视频生成里的硬信息。
7. 把工作流拆成 3 段来做
拆开以后,整条链路会稳很多。
7.1 第一轮只做观察,不急着要 prompt
第一轮先别急着要 prompt,先确认模型有没有把视频看对。提示结构可以长这样:
Analyzethisclipasproductionnotesforavideo-generationteam.
Returnchronologicalblockswithtimestamps.
Foreachblock,include:
-visualframing
-subjects
-actionandmovementphysics
-cameradynamics
-audioandpacing
Thenadd:
-reusablebuildingblocks
-unknowns
DonotuseIPnames,actoridentities,brandassumptions,orunsupportedgenerationsettings.
Onlydescribewhatisvisibleoraudibleintheclip.
这一轮里,
unknowns
这一栏别省。它就是拿来拦住那些看起来专业、其实没证据的参数。
7.2 第二轮优先拿结构化中间层
Markdown 观察稿适合人眼复查,结构化中间层适合比较、存档和程序处理。最简单的做法,是让模型返回 JSON:
ReturnvalidJSONonly.
Schema:
{
"clip_summary":"string",
"timeline_blocks":[
{
"start":"MM:SS",
"end":"MM:SS",
"visual_framing":"string",
"subjects":["string"],
"action_physics":["string"],
"camera_dynamics":["string"],
"audio":["string"],
"confidence":"high|medium|low"
}
],
"reusable_blocks":{
"subject":["string"],
"action":["string"],
"camera":["string"],
"environment":["string"],
"audio":["string"],
"style":["string"]
},
"unknowns":["string"]
}
如果你只是临时在 AI Studio 里试,这已经够用。如果你走 API,并且真打算把这套流程变成长期资产,建议直接升级为官方的结构化输出:把 JSON Schema 放进
response_format
,让模型返回语法上符合 schema 的 JSON。官方文档明确把结构化输出定义为“可预测、类型安全、便于从非结构化内容中抽取结构化数据”的机制;它适合数据提取、结构化分类和智能体工作流。要注意的一点也同样明确:结构化输出保证的是语法正确,不保证语义一定正确,所以应用层仍要做校验。
好处很直接:
证据层和改写层被硬拆开,哪一层错一眼就能看出来。
同一视频多轮分析时,你可以对比
timeline_blocks
,而不是人工对整段 prose 做 diff。
以后要做资产库、镜头表、批量改写不同平台 prompt,这就是天然中间层。
7.3 第三轮再重组生成语言
等证据层站稳后,再让模型做生成层重组:
Usingonlythesupporteddetailsfromtheanalysisabove,produce:
1.onefullgenerationprompt,
2.oneshorterplatform-friendlyprompt,
3.oneshotlist,
4.onenotelistingwhatshouldremainunspecified.
Donotinventseedvalues,cameraspecs,negativeprompts,oreditingstepsthatwerenotevidencedinthevideo.
这一轮要做的,就是把分析语言压回生成语言:去掉解释腔,保留物理对象、动作、镜头和节奏。
8. 怎样把分析稿改写成真正能投喂的视频 prompt
分析稿到 prompt,最好分 3 层落笔。否则锚点、镜头和气氛很容易写成一锅。
压成骨架,可以长这样:
[主体+外观]in[空间+光线],执行[主动作+动作目标];
[镜头行为+运动物理+对焦变化];
[音频/节奏+质感限制]。
Leaveunspecified:[没有证据的镜头参数/seed/后期步骤]
这里最常见的误写有 3 种:
把解释意味很强的词,误当成证据。比如
amateur
更像作者判断,
natural micro-shake
更像屏幕上真能观察到的镜头状态。
把镜头现象写成作者解说。
focus briefly hunts
如果证据已经足够,可以直接压成
autofocus breathing
。
把声音当背景气氛删掉。很多时候,声音不是装饰,而是在固定动作节奏。
还有一类信息,宁可先空着:
具体焦段、传感器、机型参数
seed
、负面提示词、参考图、局部重绘流程
后期剪辑、调色和音效层里没有直接证据的制作细节
这些东西当然会影响成片,但视频没给够证据时,硬塞进去只会让 prompt 更像行话,不会让结果更像原片。
要从正向写 prompt、拆镜头表和稳定出片这条线建立手感,可以接着读 Seedance 2.0 视频制作实战指南:从提示词到分镜的全流程教程
[2]
。那篇更偏“怎么拍”这一侧。
9. 常见失败与修复
9.1 用一张验收表决定下一轮改哪里
验收别靠感觉。每轮都要知道自己修的是哪一层。
如果
5
项里有
3
项不过线,就回到分析稿,不要继续磨长 prompt。问题大多出在证据层,不在修辞层。
10. 把一次反推沉淀成字段资产库
反推做过十来次之后,最耐用的通常不是整条完整 prompt,而是一组会反复复用的字段。把它们存成可检索记录,比散落在聊天历史里靠谱得多。
一个够用的最小模板,可以长这样:
clip_id:neon-alley-run-001
source_type:ai-generated
subject:
-youngwomaninsilver-grayjacket
action:
-runningforwardthroughwetalley
-glancesbackmid-stride
-visibleweightshiftbeforetheturn
camera:
-verticalhandheldframing
-subtlemicro-shake
-autofocusbreathingduringtheturn
environment:
-neonreflectionsonwetpavement
-nightalleywithcompresseddepth
audio:
-urgentbreathing
-distanttirehissthroughpuddles
finish:
-cinematicbutgrounded
unknowns:
-exactlenslength
-seedandnegativeprompt
evidence:
-00:00-00:03:handheldrun-upandwetreflections
-00:03-00:05:glance-backplusfocusbreathing
verification:
first_regen:partial_match
next_fix:strengthendelayedcameratracking
整理完之后,回到原视频前
3
秒,对照
subject
和
camera
两栏做一次 spot-check。只要这两栏没有凭空长出新内容,这份初稿通常就站得住。
想把这些字段收进真正可搜索、可复用的资产层,可以接着读 Prompts.chat:开源提示词平台、自托管方案与 MCP 集成完全指南
[3]
。那篇更适合处理 prompt 片段的沉淀和检索。
11. 练手顺序,可以这样排
练习 1:单镜头短片
素材控制在
8
秒以内,主体单一、动作清晰即可。这一轮只看拆解是否干净,不看文字漂不漂亮;
subject / action / camera / audio / unknowns
五层必须各自落位。
练习 2:高动作片段
把素材切到
3
到
5
秒,重点练时间戳追问。走 API 的话,可以顺手试一版更高
FPS
。如果更高
FPS
并没有帮你多拿到一条新的动作证据,问题多半不在采样,而在提问角度。
练习 3:同一分析稿投两个生成器
把同一份结构化分析稿分别改成长版和短版 prompt,投给两个不同平台,看哪个更吃叙述式、哪个更吃字段式。这种对照很容易暴露平台偏好,也能帮你区分“平台口味差异”和“字段提纯还不够”。
练习 4:多镜头视频做镜头表
选一段
20
到
30
秒、至少有
3
个镜头变化的视频。先拆成镜头表,再决定哪些镜头值得单独反推,哪些只需要做节奏和情绪参考。完成这一步后,你就不再是把所有信息塞回一个超长 prompt,而是在拆若干条可执行的镜头任务。
12. 练完之后,用这 5 个问题自测
如果你准备把这套方法拿去真的拆一条视频,先问自己这 5 个问题:
我现在追的是“可用反推”,还是还在偷偷追“原文还原”?
这条视频里,哪些信息是证据,哪些只是我主观补上的解释?
如果第二次生成动作不对,我会先回到
action_physics
,还是还在乱加风格词?
这条素材到底该用 AI Studio、内嵌视频、Files API,还是 Files API 加缓存?
我最后留下的是一条 prompt,还是一组以后还能继续复用的字段资产?
这
5
题里只要有
2
题答不稳,就先别追求“更像”。回到前面的工作流,把证据层重新站稳,通常比继续磨词更省时间。
13. 这套方法适合谁,不适合谁
13.1 最适合的场景
拆自己以前做过、但 prompt 已经散失的 AI 视频
学某类镜头语言和动作组织方式,而不是盲猜
给团队做二次创作 briefing,把“像这种感觉”变成结构化描述
建内部 prompt 素材库,把好片里的主体、镜头和节奏拆成可复用字段
13.2 不适合的场景
想做法证级的“原文还原”
想从结果视频里推回所有隐藏参数
想直接复制商业作品的完整创意流程
想把它当成版权、商标或合规判断工具
如果你要把这套方法放进真实商业环境,版权、商标、人物肖像和平台条款仍是另一套问题。模型能描述出来,不代表你就应该原样复刻。
这些字段真正落到出片、转场和后期拼接里是什么样,可以接着读 AI 广告制作实验:6 小时 vs 30 万美元,广告行业会被颠覆吗?
[4]
。那篇更接近真实视频制作链路里的取舍。
14. 结论:把它当成“视频版 prompt diff”来用
把这件事看成“视频版 prompt diff”会好理解很多。Gemini 先把成片里可见、可听、可追问的证据摊开,后面的工作再把这些证据整理回生成模型能消费的字段和镜头指令。
返工通常发生在层级没拆开的时候。把观察、
unknowns
、结构化中间层、生成改写和二次验证分开以后,偏差会落到更具体的位置。最后留下来的,也不只是一条碰巧跑通的 prompt,而是一份下次还能接着改的工作底稿。
第一次上手,按下面这
6
步走,一般会顺很多:
先选一段
5
到
12
秒、主体单一、动作明确的片段。
用 AI Studio 或最轻量入口跑第一轮观察,不急着要最终 prompt。
拿到时间块、字段和
unknowns
之后,再转成 JSON 或结构化输出。
基于中间层重组成长 prompt、短 prompt 和 shot list。
用第二次生成结果做验收,而不是被分析稿的文采迷惑。
能复用的字段立刻进资产库,别让它烂在聊天窗口里。
参考资料
Google Gemini 视频理解文档
[5]
Google Gemini Files API 文档
[6]
Google Gemini 上下文缓存文档
[7]
Google Gemini 媒体分辨率文档
[8]
Google Gemini 结构化输出文档
[9]
Google Gemini 模型列表
[10]
Google Gemini 提示工程文档
[11]
Google Gemini 更新日志
[12]
Google AI Studio
[13]
社区系统提示词模板:HYPER-GRANULAR VIDEO ANALYSIS
[14]
引用链接
[1]Google AI Studio:
https://
aistudio.google.com/
[2]Seedance 2.0 视频制作实战指南:从提示词到分镜的全流程教程:
../video/seedance-2-video-production-guide.md
[3]Prompts.chat:开源提示词平台、自托管方案与 MCP 集成完全指南:
./llm/prompts-chat-open-source-prompt-library-guide.md
[4]AI 广告制作实验:6 小时 vs 30 万美元,广告行业会被颠覆吗?:
../video/ai-advertising-production-6-hours-vs-300k.md
[5]Google Gemini 视频理解文档:
https://
ai.google.dev/gemini-ap
i/docs/video-understanding
[6]Google Gemini Files API 文档:
https://
ai.google.dev/gemini-ap
i/docs/files
[7]Google Gemini 上下文缓存文档:
https://
ai.google.dev/gemini-ap
i/docs/caching
[8]Google Gemini 媒体分辨率文档:
https://
ai.google.dev/gemini-ap
i/docs/media-resolution
[9]Google Gemini 结构化输出文档:
https://
ai.google.dev/gemini-ap
i/docs/structured-output
[10]Google Gemini 模型列表:
https://
ai.google.dev/gemini-ap
i/docs/models
[11]Google Gemini 提示工程文档:
https://
ai.google.dev/gemini-ap
i/docs/prompting-strategies
[12]Google Gemini 更新日志:
https://
ai.google.dev/gemini-ap
i/docs/changelog
[13]Google AI Studio:
https://
aistudio.google.com/
[14]社区系统提示词模板:HYPER-GRANULAR VIDEO ANALYSIS:
https://
pastebin.com/H8DeXq1G
| 需求 | 输入 | 实现 | 输出 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| # | 目的 | 作用 | 实质 | 形式 | 类型 | 值 | 来源 | 外部工具 | 动作 | 指令 | 类型 | 值 | 去处 |
| s1 | 通过 human 确定反推的 视频配置 | 预准备 | 视频 | 内容类型/素材/化学变化/参考视频 | <一段8秒竖屏AI视频:夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。> | ← 工序输入 | human | 获取/录入/键入 | 视频配置 | s1o1 5.1 先定输入通道 不同入口解决的是不同问题。手工诊断、重复追问、长视频复用、高动作精查,别混着做。 这里有一个容易把人看懵的官方细节:视频理解页在“上传视频文件”一段强调总请求体超过 20 MB 、视频较长或要复用时应使用 Files API;同页的输入方式总览又把内嵌数据写成小文件 <100 MB 的入口。别在这个边界上抬杠。工程上只要你满足下面任一条件,就直接切 Files API: 你准备围着同一条视频问两轮以上。 视频开始逼近长片段或接近 1 分钟。 请求体已经不再是“随手试一下”的量级。 你后面还要缓存、分段、做结构化输出或沉淀资产。 | → s2 | ||
| s2 | 用 gemini_2_5_pro 反推 参考视频,得到 视频观察稿 | 预处理 | 视频 | 内容类型/素材/化学变化/参考视频 | <一段8秒竖屏AI视频:夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。> | ← 工序输入 | gemini_2_5_pro | 提取/化学提取/反推 | 观察视频 | 视频观察稿 | s2o1 夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。 | → s3 | |
| 视频配置 | 5.1 先定输入通道 不同入口解决的是不同问题。手工诊断、重复追问、长视频复用、高动作精查,别混着做。 这里有一个容易把人看懵的官方细节:视频理解页在“上传视频文件”一段强调总请求体超过 20 MB 、视频较长或要复用时应使用 Files API;同页的输入方式总览又把内嵌数据写成小文件 <100 MB 的入口。别在这个边界上抬杠。工程上只要你满足下面任一条件,就直接切 Files API: 你准备围着同一条视频问两轮以上。 视频开始逼近长片段或接近 1 分钟。 请求体已经不再是“随手试一下”的量级。 你后面还要缓存、分段、做结构化输出或沉淀资产。 | ← s1o1 | |||||||||||
| 程序控制类型/指令/提示词 | Analyzethisclipasproductionnotesforavideo-generationteam. Returnchronologicalblockswithtimestamps. Foreachblock,include: -visualframing -subjects -actionandmovementphysics -cameradynamics -audioandpacing Thenadd: -reusablebuildingblocks -unknowns DonotuseIPnames,actoridentities,brandassumptions,orunsupportedgenerationsettings. Onlydescribewhatisvisibleoraudibleintheclip. | ← 观察提示词 | |||||||||||
| s3 | 用 gemini_2_5_pro 解构 视频观察稿,得到 结构化中间层 | 预处理 | 视频 | 视频观察稿 | 夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。 | ← s2o1 | gemini_2_5_pro | 提取/化学提取/解构 | 结构化提取 | 结构化中间层 | s3o1 clip_id:neon-alley-run-001 source_type:ai-generated subject: -youngwomaninsilver-grayjacket action: -runningforwardthroughwetalley -glancesbackmid-stride -visibleweightshiftbeforetheturn camera: -verticalhandheldframing -subtlemicro-shake -autofocusbreathingduringtheturn environment: -neonreflectionsonwetpavement -nightalleywithcompresseddepth audio: -urgentbreathing -distanttirehissthroughpuddles finish: -cinematicbutgrounded unknowns: -exactlenslength -seedandnegativeprompt evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing verification: first_regen:partial_match next_fix:strengthendelayedcameratracking | → s4, s7 | |
| 程序控制类型/指令/提示词 | ReturnvalidJSONonly. Schema: { "clip_summary":"string", "timeline_blocks":[ { "start":"MM:SS", "end":"MM:SS", "visual_framing":"string", "subjects":["string"], "action_physics":["string"], "camera_dynamics":["string"], "audio":["string"], "confidence":"high|medium|low" } ], "reusable_blocks":{ "subject":["string"], "action":["string"], "camera":["string"], "environment":["string"], "audio":["string"], "style":["string"] }, "unknowns":["string"] } | ← 结构化提示词 | |||||||||||
| s4 | 用 gemini_2_5_pro 结构生成 结构化中间层,得到 长提示词、短提示词、镜头表 和 未指定说明 | 预处理 | 提示词 | 结构化中间层 | clip_id:neon-alley-run-001 source_type:ai-generated subject: -youngwomaninsilver-grayjacket action: -runningforwardthroughwetalley -glancesbackmid-stride -visibleweightshiftbeforetheturn camera: -verticalhandheldframing -subtlemicro-shake -autofocusbreathingduringtheturn environment: -neonreflectionsonwetpavement -nightalleywithcompresseddepth audio: -urgentbreathing -distanttirehissthroughpuddles finish: -cinematicbutgrounded unknowns: -exactlenslength -seedandnegativeprompt evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing verification: first_regen:partial_match next_fix:strengthendelayedcameratracking | ← s3o1 | gemini_2_5_pro | 生成/关系生成/结构生成 | 重组生成语言 | 长提示词 | s4o1 Verticalsmartphonefootageofayoungwomaninasilver-grayjacketrunningthrougharain-soakedneonalleyatnight,handheldwithsubtlenaturalmicro-shake,wetreflectionsonthepavement,sheglancesbackmid-stride,slightautofocusbreathingduringtheturn,urgentpace,realisticmotionphysics,layeredambientaudiowithbreathanddistanttirehiss,cinematicbutgrounded. | → s5 | |
| 程序控制类型/指令/提示词 | Usingonlythesupporteddetailsfromtheanalysisabove,produce: 1.onefullgenerationprompt, 2.oneshorterplatform-friendlyprompt, 3.oneshotlist, 4.onenotelistingwhatshouldremainunspecified. Donotinventseedvalues,cameraspecs,negativeprompts,oreditingstepsthatwerenotevidencedinthevideo. | ← 重组提示词 | 短提示词 | s4o2 youngwomaninsilver-grayjacketrunningthroughaneonrainalleyatnight,verticalhandheldsmartphoneshot,subtlemicro-shake,glancebackmid-run,autofocusbreathing,wetreflections,realisticmotionphysics,urgenturbanambience | |||||||||
| 镜头表 | s4o3 evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing | ||||||||||||
| 未指定说明 | s4o4 Leaveunspecified:[没有证据的镜头参数/seed/后期步骤] 这里最常见的误写有 3 种: 把解释意味很强的词,误当成证据。比如 amateur 更像作者判断, natural micro-shake 更像屏幕上真能观察到的镜头状态。 把镜头现象写成作者解说。 focus briefly hunts 如果证据已经足够,可以直接压成 autofocus breathing 。 把声音当背景气氛删掉。很多时候,声音不是装饰,而是在固定动作节奏。 还有一类信息,宁可先空着: 具体焦段、传感器、机型参数 seed 、负面提示词、参考图、局部重绘流程 后期剪辑、调色和音效层里没有直接证据的制作细节 这些东西当然会影响成片,但视频没给够证据时,硬塞进去只会让 prompt 更像行话,不会让结果更像原片。 | ||||||||||||
| s5 | 用 (AI 视频生成工具) 元素生成 长提示词,得到 生成视频 | 主体生成 | 视频 | 长提示词 | Verticalsmartphonefootageofayoungwomaninasilver-grayjacketrunningthrougharain-soakedneonalleyatnight,handheldwithsubtlenaturalmicro-shake,wetreflectionsonthepavement,sheglancesbackmid-stride,slightautofocusbreathingduringtheturn,urgentpace,realisticmotionphysics,layeredambientaudiowithbreathanddistanttirehiss,cinematicbutgrounded. | ← s4o1 | (AI 视频生成工具) | 生成/元素生成 | 使用长提示词生成视频 | 生成视频 | s5o1 <使用长提示词生成的视频,展示夜晚雨巷里穿银灰夹克的年轻女人奔跑并回头的画面> | → s6 | |
| s6 | 通过 human 对照 验收表 检验 生成视频,得到 验收结果 | 检验 | 视频 | 内容类型/素材/化学变化/参考视频 | <一段8秒竖屏AI视频:夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。> | ← 工序输入 | human | 获取/引用/选取 | 对照偏差判断验收表,对生成的视频进行验收 | 验收结果 | s6o1 verification: first_regen:partial_match next_fix:strengthendelayedcameratracking | → s7 | |
| 生成视频 | <使用长提示词生成的视频,展示夜晚雨巷里穿银灰夹克的年轻女人奔跑并回头的画面> | ← s5o1 | |||||||||||
| 验收表 | 用一套可复查的验收表判断偏差出在主体、动作、镜头还是节奏。 把一次反推沉淀成字段资产,而不是散落在聊天记录里的灵感碎片。 | ← 验收表 | |||||||||||
| s7 | 通过 human 将 结构化中间层 和 验收结果 入库 沉淀为 字段资产库记录 | 工艺规约 | 提示词 | 结构化中间层 | clip_id:neon-alley-run-001 source_type:ai-generated subject: -youngwomaninsilver-grayjacket action: -runningforwardthroughwetalley -glancesbackmid-stride -visibleweightshiftbeforetheturn camera: -verticalhandheldframing -subtlemicro-shake -autofocusbreathingduringtheturn environment: -neonreflectionsonwetpavement -nightalleywithcompresseddepth audio: -urgentbreathing -distanttirehissthroughpuddles finish: -cinematicbutgrounded unknowns: -exactlenslength -seedandnegativeprompt evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing verification: first_regen:partial_match next_fix:strengthendelayedcameratracking | ← s3o1 | human | 存储/沉淀/入库 | 将反推的字段和验收结果整理并沉淀到资产库 | 字段资产库记录 | s7o1 clip_id:neon-alley-run-001 source_type:ai-generated subject: -youngwomaninsilver-grayjacket action: -runningforwardthroughwetalley -glancesbackmid-stride -visibleweightshiftbeforetheturn camera: -verticalhandheldframing -subtlemicro-shake -autofocusbreathingduringtheturn environment: -neonreflectionsonwetpavement -nightalleywithcompresseddepth audio: -urgentbreathing -distanttirehissthroughpuddles finish: -cinematicbutgrounded unknowns: -exactlenslength -seedandnegativeprompt evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing verification: first_regen:partial_match next_fix:strengthendelayedcameratracking | → 返回 字段资产库记录 | |
| 验收结果 | verification: first_regen:partial_match next_fix:strengthendelayedcameratracking | ← s6o1 | |||||||||||