原文: 反推 AI 视频提示词完整指南:用 Gemini 视频理解从视频逆向拆解生成提示词
zhihu · 2026-05-28 21:20:20

摘要: 基于 Google 官方视频理解、Files API、上下文缓存、媒体分辨率、结构化输出与社区高颗粒度模板,系统讲清如何用 Gemini 从视频逆向拆回可复用的生成条件,并把结果沉淀成长期可复用的 prompt 资产。 这篇文章写给已经在用


基于 Google 官方视频理解、Files API、上下文缓存、媒体分辨率、结构化输出与社区高颗粒度模板,系统讲清如何用 Gemini 从视频逆向拆回可复用的生成条件,并把结果沉淀成长期可复用的 prompt 资产。

这篇文章写给已经在用 Runway、可灵、Pika、Veo 或同类工具的人。这里说的“反推提示词”,更接近逆向拆镜:从成片里把主体、动作、镜头、声音、空间关系和速度感重新捞出来,同时把该留白的地方留出来。

Gemini 能同时读视频帧、音频和时间戳,再配合强约束提示词或结构化输出,把证据层和改写层拆开。最后留下的,最好是一份能喂回视频模型、能复盘、能存档、还能继续改的中间稿,而不是一大段看上去很专业的说明文字。

下面的方法基于 Google 官方视频理解、Files API、上下文缓存、媒体分辨率、结构化输出、提示工程文档,以及社区流传很广的 HYPER-GRANULAR VIDEO ANALYSIS 模板。模型名字、AI Studio 界面、费率和配额会继续变,但“先观察、再重组、最后验收”的工作流不会变。若你打算把它用于他人作品的商业复刻,版权、商标、肖像权和平台条款仍要单独判断。

先记这 3 条:

先把视频拆成证据,再写 prompt,不要反过来。

unknowns

必须留着,不要把猜测装成参数。

验收看第二次生成出来的视频,不看分析稿写得多漂亮。

1. 学习目标

读完这篇文章,你至少应该能做到下面几件事:

判断一段视频适不适合做反推,避免一上来就整段上传碰运气。

说清“可用反推”和“原文还原”的区别,别把目标设错。

用 Gemini 把视频拆成时间块、字段和

unknowns

,而不是一段笼统总结。

根据素材长度、复用频次、动作密度选择 AI Studio、内嵌视频、Files API、上下文缓存和自定义

FPS

把分析稿重写成一条长 prompt、一条短 prompt 和一份 shot list。

用一套可复查的验收表判断偏差出在主体、动作、镜头还是节奏。

把一次反推沉淀成字段资产,而不是散落在聊天记录里的灵感碎片。

2. Gemini 适合做的是“可用反推”,不是“原文还原”

第一次上手最容易错的,就是把目标设成“还原原文”。可视频只是结果层,不是生产日志。你看到的是成片,不是当时的完整创作过程,所以它更适合帮你找回一组高概率生成条件,而不是唯一答案。

更实际的目标,是拿回一份可复用的生成条件清单。它足够接近,也留得出修改空间,能让你第二次生成时沿着正确方向收敛,这就已经有用了。

3. 一条

8

秒视频怎么被拆回 prompt

假设你手里有一段

8

秒竖屏 AI 视频:夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。

真做下来,不用十几轮提示,先把流程压成下面这 4 步就够了:

如果 Gemini 的观察稿里出现这些信息:

那它被重写成 prompt 后,大致会长成这样:

Verticalsmartphonefootageofayoungwomaninasilver-grayjacketrunningthrougharain-soakedneonalleyatnight,handheldwithsubtlenaturalmicro-shake,wetreflectionsonthepavement,sheglancesbackmid-stride,slightautofocusbreathingduringtheturn,urgentpace,realisticmotionphysics,layeredambientaudiowithbreathanddistanttirehiss,cinematicbutgrounded.

如果目标平台更偏好短 prompt,再压成一条硬字段版:

youngwomaninsilver-grayjacketrunningthroughaneonrainalleyatnight,verticalhandheldsmartphoneshot,subtlemicro-shake,glancebackmid-run,autofocusbreathing,wetreflections,realisticmotionphysics,urgenturbanambience

这两个版本都不是“原文还原”,但已经足够支持下一次生成。要的是这种能继续试、能继续改的逼近,不是文字考古。

4. 这条链路为什么能跑通

最后能不能像,往往取决于中间这两层有没有拆开:

先把视频拆成结构化证据,避免模型自由发挥式总结。

再把结构化证据改写成生成语言,避免你把整段分析稿原样塞进另一个视频模型。

很多返工都出在这两层没拆开。观察、推断、修辞、平台适配写成一锅,下一轮就不知道该改哪里。

5. 把入口、模型和采样先选对

很多教程一上来就盯着某个模型名。实际做反推时,型号的重要性通常排在任务设计后面。官方视频理解页给得更直接:所有 Gemini 模型都支持视频剪辑和自定义

FPS

,但

2.5

系列在这类视频处理上的质量明显更高;与此同时,当前模型列表已经进入

3.x / 3.5

时代。与其死背教程标题里的型号,不如把模型当成执行层,用同一条工作流去比较当前可用的档位。

5.1 先定输入通道

不同入口解决的是不同问题。手工诊断、重复追问、长视频复用、高动作精查,别混着做。

这里有一个容易把人看懵的官方细节:视频理解页在“上传视频文件”一段强调总请求体超过

20 MB

、视频较长或要复用时应使用 Files API;同页的输入方式总览又把内嵌数据写成小文件

<100 MB

的入口。别在这个边界上抬杠。工程上只要你满足下面任一条件,就直接切 Files API:

你准备围着同一条视频问两轮以上。

视频开始逼近长片段或接近

1

分钟。

请求体已经不再是“随手试一下”的量级。

你后面还要缓存、分段、做结构化输出或沉淀资产。

5.2 先选片段,再谈模型

第一次反推,别拿整条长片开刀。先找一个信息密度高、镜头意图单一的短片段。经验上最稳的是下面这种:

一个主要主体

一个主要动作意图

一个相对明确的镜头运动

不超过一个核心节奏变化

广告成片、混剪短片、多镜头 montage 不适合第一轮就整段喂进去。先拆片段,再做反推。

5.3 默认

1 FPS

是起点,不是答案

官方视频理解文档写得很明白:Gemini 默认按

1 FPS

抽取视频帧。对多数中低运动内容够用,但它会漏掉快动作、快切和高速镜头细节。你如果总觉得“差一口气”,先别急着怪 prompt,先怀疑采样粒度。

如果你只在 AI Studio 里操作,看不到这些参数,也没关系。最直接的替代方法只有两个:把视频切短,把问题收窄。

5.4 预算别靠感觉,要看

media_resolution

官方文档给了两组很有用的数字:

视频理解页把默认媒体分辨率的视频估成大约

300 tokens/秒

,低媒体分辨率大约

100 tokens/秒

,音频约

32 tokens/秒

媒体分辨率页把视频视觉帧的预算写成同一量级:Gemini

3

中,视频

LOW / MEDIUM

70 token/帧

HIGH

280 token/帧

这两份文档的口径不同,一个在讲“每秒总成本”,一个在讲“每帧视觉预算”,但它们都在提醒同一件事:别把整条长视频一路高精度硬跑到底。先低配扫轮廓,再把预算花在真正有问题的局部。

对于视频反推,大多数时候你不需要全程高分辨率。只有当你要读画面内密集文本,或者你确定差异出在极细小的帧内视觉信号时,再把

HIGH

打开。

6. 强系统提示词为什么有效,但别把它当咒语

Pastebin 上那份 HYPER-GRANULAR VIDEO ANALYSIS 模板之所以有用,不在于它用了多少夸张形容词,而在于它把官方多模态提示原则落得很硬:指令具体、任务拆分、输出格式固定、必要时先描述媒体再推理。

与其整段照搬,不如保住它抓住的 5 个字段:

其中最影响复现质量的一条,是“把镜头当成角色”。很多反推结果只写主体和场景,最后生成出来像内容,不像拍法。手持微颤、延迟跟拍、对焦呼吸、突然上扬的追拍,这些都不是装饰,而是视频生成里的硬信息。

7. 把工作流拆成 3 段来做

拆开以后,整条链路会稳很多。

7.1 第一轮只做观察,不急着要 prompt

第一轮先别急着要 prompt,先确认模型有没有把视频看对。提示结构可以长这样:

Analyzethisclipasproductionnotesforavideo-generationteam.

Returnchronologicalblockswithtimestamps.

Foreachblock,include:

-visualframing

-subjects

-actionandmovementphysics

-cameradynamics

-audioandpacing

Thenadd:

-reusablebuildingblocks

-unknowns

DonotuseIPnames,actoridentities,brandassumptions,orunsupportedgenerationsettings.

Onlydescribewhatisvisibleoraudibleintheclip.

这一轮里,

unknowns

这一栏别省。它就是拿来拦住那些看起来专业、其实没证据的参数。

7.2 第二轮优先拿结构化中间层

Markdown 观察稿适合人眼复查,结构化中间层适合比较、存档和程序处理。最简单的做法,是让模型返回 JSON:

ReturnvalidJSONonly.

Schema:

{

"clip_summary":"string",

"timeline_blocks":[

{

"start":"MM:SS",

"end":"MM:SS",

"visual_framing":"string",

"subjects":["string"],

"action_physics":["string"],

"camera_dynamics":["string"],

"audio":["string"],

"confidence":"high|medium|low"

}

],

"reusable_blocks":{

"subject":["string"],

"action":["string"],

"camera":["string"],

"environment":["string"],

"audio":["string"],

"style":["string"]

},

"unknowns":["string"]

}

如果你只是临时在 AI Studio 里试,这已经够用。如果你走 API,并且真打算把这套流程变成长期资产,建议直接升级为官方的结构化输出:把 JSON Schema 放进

response_format

,让模型返回语法上符合 schema 的 JSON。官方文档明确把结构化输出定义为“可预测、类型安全、便于从非结构化内容中抽取结构化数据”的机制;它适合数据提取、结构化分类和智能体工作流。要注意的一点也同样明确:结构化输出保证的是语法正确,不保证语义一定正确,所以应用层仍要做校验。

好处很直接:

证据层和改写层被硬拆开,哪一层错一眼就能看出来。

同一视频多轮分析时,你可以对比

timeline_blocks

,而不是人工对整段 prose 做 diff。

以后要做资产库、镜头表、批量改写不同平台 prompt,这就是天然中间层。

7.3 第三轮再重组生成语言

等证据层站稳后,再让模型做生成层重组:

Usingonlythesupporteddetailsfromtheanalysisabove,produce:

1.onefullgenerationprompt,

2.oneshorterplatform-friendlyprompt,

3.oneshotlist,

4.onenotelistingwhatshouldremainunspecified.

Donotinventseedvalues,cameraspecs,negativeprompts,oreditingstepsthatwerenotevidencedinthevideo.

这一轮要做的,就是把分析语言压回生成语言:去掉解释腔,保留物理对象、动作、镜头和节奏。

8. 怎样把分析稿改写成真正能投喂的视频 prompt

分析稿到 prompt,最好分 3 层落笔。否则锚点、镜头和气氛很容易写成一锅。

压成骨架,可以长这样:

[主体+外观]in[空间+光线],执行[主动作+动作目标];

[镜头行为+运动物理+对焦变化];

[音频/节奏+质感限制]。

Leaveunspecified:[没有证据的镜头参数/seed/后期步骤]

这里最常见的误写有 3 种:

把解释意味很强的词,误当成证据。比如

amateur

更像作者判断,

natural micro-shake

更像屏幕上真能观察到的镜头状态。

把镜头现象写成作者解说。

focus briefly hunts

如果证据已经足够,可以直接压成

autofocus breathing

把声音当背景气氛删掉。很多时候,声音不是装饰,而是在固定动作节奏。

还有一类信息,宁可先空着:

具体焦段、传感器、机型参数

seed

、负面提示词、参考图、局部重绘流程

后期剪辑、调色和音效层里没有直接证据的制作细节

这些东西当然会影响成片,但视频没给够证据时,硬塞进去只会让 prompt 更像行话,不会让结果更像原片。

要从正向写 prompt、拆镜头表和稳定出片这条线建立手感,可以接着读 Seedance 2.0 视频制作实战指南:从提示词到分镜的全流程教程

[2]

。那篇更偏“怎么拍”这一侧。

9. 常见失败与修复

9.1 用一张验收表决定下一轮改哪里

验收别靠感觉。每轮都要知道自己修的是哪一层。

如果

5

项里有

3

项不过线,就回到分析稿,不要继续磨长 prompt。问题大多出在证据层,不在修辞层。

10. 把一次反推沉淀成字段资产库

反推做过十来次之后,最耐用的通常不是整条完整 prompt,而是一组会反复复用的字段。把它们存成可检索记录,比散落在聊天历史里靠谱得多。

一个够用的最小模板,可以长这样:

clip_id:neon-alley-run-001

source_type:ai-generated

subject:

-youngwomaninsilver-grayjacket

action:

-runningforwardthroughwetalley

-glancesbackmid-stride

-visibleweightshiftbeforetheturn

camera:

-verticalhandheldframing

-subtlemicro-shake

-autofocusbreathingduringtheturn

environment:

-neonreflectionsonwetpavement

-nightalleywithcompresseddepth

audio:

-urgentbreathing

-distanttirehissthroughpuddles

finish:

-cinematicbutgrounded

unknowns:

-exactlenslength

-seedandnegativeprompt

evidence:

-00:00-00:03:handheldrun-upandwetreflections

-00:03-00:05:glance-backplusfocusbreathing

verification:

first_regen:partial_match

next_fix:strengthendelayedcameratracking

整理完之后,回到原视频前

3

秒,对照

subject

camera

两栏做一次 spot-check。只要这两栏没有凭空长出新内容,这份初稿通常就站得住。

想把这些字段收进真正可搜索、可复用的资产层,可以接着读 Prompts.chat:开源提示词平台、自托管方案与 MCP 集成完全指南

[3]

。那篇更适合处理 prompt 片段的沉淀和检索。

11. 练手顺序,可以这样排

练习 1:单镜头短片

素材控制在

8

秒以内,主体单一、动作清晰即可。这一轮只看拆解是否干净,不看文字漂不漂亮;

subject / action / camera / audio / unknowns

五层必须各自落位。

练习 2:高动作片段

把素材切到

3

5

秒,重点练时间戳追问。走 API 的话,可以顺手试一版更高

FPS

。如果更高

FPS

并没有帮你多拿到一条新的动作证据,问题多半不在采样,而在提问角度。

练习 3:同一分析稿投两个生成器

把同一份结构化分析稿分别改成长版和短版 prompt,投给两个不同平台,看哪个更吃叙述式、哪个更吃字段式。这种对照很容易暴露平台偏好,也能帮你区分“平台口味差异”和“字段提纯还不够”。

练习 4:多镜头视频做镜头表

选一段

20

30

秒、至少有

3

个镜头变化的视频。先拆成镜头表,再决定哪些镜头值得单独反推,哪些只需要做节奏和情绪参考。完成这一步后,你就不再是把所有信息塞回一个超长 prompt,而是在拆若干条可执行的镜头任务。

12. 练完之后,用这 5 个问题自测

如果你准备把这套方法拿去真的拆一条视频,先问自己这 5 个问题:

我现在追的是“可用反推”,还是还在偷偷追“原文还原”?

这条视频里,哪些信息是证据,哪些只是我主观补上的解释?

如果第二次生成动作不对,我会先回到

action_physics

,还是还在乱加风格词?

这条素材到底该用 AI Studio、内嵌视频、Files API,还是 Files API 加缓存?

我最后留下的是一条 prompt,还是一组以后还能继续复用的字段资产?

5

题里只要有

2

题答不稳,就先别追求“更像”。回到前面的工作流,把证据层重新站稳,通常比继续磨词更省时间。

13. 这套方法适合谁,不适合谁

13.1 最适合的场景

拆自己以前做过、但 prompt 已经散失的 AI 视频

学某类镜头语言和动作组织方式,而不是盲猜

给团队做二次创作 briefing,把“像这种感觉”变成结构化描述

建内部 prompt 素材库,把好片里的主体、镜头和节奏拆成可复用字段

13.2 不适合的场景

想做法证级的“原文还原”

想从结果视频里推回所有隐藏参数

想直接复制商业作品的完整创意流程

想把它当成版权、商标或合规判断工具

如果你要把这套方法放进真实商业环境,版权、商标、人物肖像和平台条款仍是另一套问题。模型能描述出来,不代表你就应该原样复刻。

这些字段真正落到出片、转场和后期拼接里是什么样,可以接着读 AI 广告制作实验:6 小时 vs 30 万美元,广告行业会被颠覆吗?

[4]

。那篇更接近真实视频制作链路里的取舍。

14. 结论:把它当成“视频版 prompt diff”来用

把这件事看成“视频版 prompt diff”会好理解很多。Gemini 先把成片里可见、可听、可追问的证据摊开,后面的工作再把这些证据整理回生成模型能消费的字段和镜头指令。

返工通常发生在层级没拆开的时候。把观察、

unknowns

、结构化中间层、生成改写和二次验证分开以后,偏差会落到更具体的位置。最后留下来的,也不只是一条碰巧跑通的 prompt,而是一份下次还能接着改的工作底稿。

第一次上手,按下面这

6

步走,一般会顺很多:

先选一段

5

12

秒、主体单一、动作明确的片段。

用 AI Studio 或最轻量入口跑第一轮观察,不急着要最终 prompt。

拿到时间块、字段和

unknowns

之后,再转成 JSON 或结构化输出。

基于中间层重组成长 prompt、短 prompt 和 shot list。

用第二次生成结果做验收,而不是被分析稿的文采迷惑。

能复用的字段立刻进资产库,别让它烂在聊天窗口里。

参考资料

Google Gemini 视频理解文档

[5]

Google Gemini Files API 文档

[6]

Google Gemini 上下文缓存文档

[7]

Google Gemini 媒体分辨率文档

[8]

Google Gemini 结构化输出文档

[9]

Google Gemini 模型列表

[10]

Google Gemini 提示工程文档

[11]

Google Gemini 更新日志

[12]

Google AI Studio

[13]

社区系统提示词模板:HYPER-GRANULAR VIDEO ANALYSIS

[14]

引用链接

[1]Google AI Studio:

https://

aistudio.google.com/

[2]Seedance 2.0 视频制作实战指南:从提示词到分镜的全流程教程:

../video/seedance-2-video-production-guide.md

[3]Prompts.chat:开源提示词平台、自托管方案与 MCP 集成完全指南:

./llm/prompts-chat-open-source-prompt-library-guide.md

[4]AI 广告制作实验:6 小时 vs 30 万美元,广告行业会被颠覆吗?:

../video/ai-advertising-production-6-hours-vs-300k.md

[5]Google Gemini 视频理解文档:

https://

ai.google.dev/gemini-ap

i/docs/video-understanding

[6]Google Gemini Files API 文档:

https://

ai.google.dev/gemini-ap

i/docs/files

[7]Google Gemini 上下文缓存文档:

https://

ai.google.dev/gemini-ap

i/docs/caching

[8]Google Gemini 媒体分辨率文档:

https://

ai.google.dev/gemini-ap

i/docs/media-resolution

[9]Google Gemini 结构化输出文档:

https://

ai.google.dev/gemini-ap

i/docs/structured-output

[10]Google Gemini 模型列表:

https://

ai.google.dev/gemini-ap

i/docs/models

[11]Google Gemini 提示工程文档:

https://

ai.google.dev/gemini-ap

i/docs/prompting-strategies

[12]Google Gemini 更新日志:

https://

ai.google.dev/gemini-ap

i/docs/changelog

[13]Google AI Studio:

https://

aistudio.google.com/

[14]社区系统提示词模板:HYPER-GRANULAR VIDEO ANALYSIS:

https://

pastebin.com/H8DeXq1G

需求 # 目的 作用 实质 形式
输入 类型 来源
实现 外部工具 动作 指令
输出 类型 去处
高亮推断 点击列名 ↔ 显示/隐藏 · 点击组名 ↔ 整组切换 · 「推」角标 hover 看推断理由
工序 视频反推提示词与资产建设 #目的: 用 Gemini 从视频逆向拆解生成条件,并把结果沉淀成长期可复用的 prompt 资产 类别: 资产建设 #平台: zhihu · #作者: zhihu · case: A_zhihu_20434415
输入
内容类型/素材/化学变化/参考视频 需要反推提示词的原始视频
资源 (跨 case 长期资产)
观察提示词 第一轮观察提示词
结构化提示词 第二轮结构化提取提示词
重组提示词 第三轮重组生成提示词
验收表 偏差判断验收表
返回
字段资产库记录
需求 输入 实现 输出
# 目的 作用 实质 形式 类型 来源 外部工具 动作 指令 类型 去处
s1
通过 human 确定反推的 视频配置
预准备视频内容类型/素材/化学变化/参考视频<一段8秒竖屏AI视频:夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。>← 工序输入human获取/录入/键入视频配置s1o1 5.1 先定输入通道 不同入口解决的是不同问题。手工诊断、重复追问、长视频复用、高动作精查,别混着做。 这里有一个容易把人看懵的官方细节:视频理解页在“上传视频文件”一段强调总请求体超过 20 MB 、视频较长或要复用时应使用 Files API;同页的输入方式总览又把内嵌数据写成小文件 <100 MB 的入口。别在这个边界上抬杠。工程上只要你满足下面任一条件,就直接切 Files API: 你准备围着同一条视频问两轮以上。 视频开始逼近长片段或接近 1 分钟。 请求体已经不再是“随手试一下”的量级。 你后面还要缓存、分段、做结构化输出或沉淀资产。→ s2
s2
gemini_2_5_pro 反推 参考视频,得到 视频观察稿
预处理视频内容类型/素材/化学变化/参考视频<一段8秒竖屏AI视频:夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。>← 工序输入gemini_2_5_pro提取/化学提取/反推观察视频视频观察稿s2o1 夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。→ s3
视频配置5.1 先定输入通道 不同入口解决的是不同问题。手工诊断、重复追问、长视频复用、高动作精查,别混着做。 这里有一个容易把人看懵的官方细节:视频理解页在“上传视频文件”一段强调总请求体超过 20 MB 、视频较长或要复用时应使用 Files API;同页的输入方式总览又把内嵌数据写成小文件 <100 MB 的入口。别在这个边界上抬杠。工程上只要你满足下面任一条件,就直接切 Files API: 你准备围着同一条视频问两轮以上。 视频开始逼近长片段或接近 1 分钟。 请求体已经不再是“随手试一下”的量级。 你后面还要缓存、分段、做结构化输出或沉淀资产。← s1o1
程序控制类型/指令/提示词Analyzethisclipasproductionnotesforavideo-generationteam. Returnchronologicalblockswithtimestamps. Foreachblock,include: -visualframing -subjects -actionandmovementphysics -cameradynamics -audioandpacing Thenadd: -reusablebuildingblocks -unknowns DonotuseIPnames,actoridentities,brandassumptions,orunsupportedgenerationsettings. Onlydescribewhatisvisibleoraudibleintheclip.← 观察提示词
s3
gemini_2_5_pro 解构 视频观察稿,得到 结构化中间层
预处理视频视频观察稿夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。← s2o1gemini_2_5_pro提取/化学提取/解构结构化提取结构化中间层s3o1 clip_id:neon-alley-run-001 source_type:ai-generated subject: -youngwomaninsilver-grayjacket action: -runningforwardthroughwetalley -glancesbackmid-stride -visibleweightshiftbeforetheturn camera: -verticalhandheldframing -subtlemicro-shake -autofocusbreathingduringtheturn environment: -neonreflectionsonwetpavement -nightalleywithcompresseddepth audio: -urgentbreathing -distanttirehissthroughpuddles finish: -cinematicbutgrounded unknowns: -exactlenslength -seedandnegativeprompt evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing verification: first_regen:partial_match next_fix:strengthendelayedcameratracking→ s4, s7
程序控制类型/指令/提示词ReturnvalidJSONonly. Schema: { "clip_summary":"string", "timeline_blocks":[ { "start":"MM:SS", "end":"MM:SS", "visual_framing":"string", "subjects":["string"], "action_physics":["string"], "camera_dynamics":["string"], "audio":["string"], "confidence":"high|medium|low" } ], "reusable_blocks":{ "subject":["string"], "action":["string"], "camera":["string"], "environment":["string"], "audio":["string"], "style":["string"] }, "unknowns":["string"] }← 结构化提示词
s4
gemini_2_5_pro 结构生成 结构化中间层,得到 长提示词短提示词镜头表未指定说明
预处理提示词结构化中间层clip_id:neon-alley-run-001 source_type:ai-generated subject: -youngwomaninsilver-grayjacket action: -runningforwardthroughwetalley -glancesbackmid-stride -visibleweightshiftbeforetheturn camera: -verticalhandheldframing -subtlemicro-shake -autofocusbreathingduringtheturn environment: -neonreflectionsonwetpavement -nightalleywithcompresseddepth audio: -urgentbreathing -distanttirehissthroughpuddles finish: -cinematicbutgrounded unknowns: -exactlenslength -seedandnegativeprompt evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing verification: first_regen:partial_match next_fix:strengthendelayedcameratracking← s3o1gemini_2_5_pro生成/关系生成/结构生成重组生成语言长提示词s4o1 Verticalsmartphonefootageofayoungwomaninasilver-grayjacketrunningthrougharain-soakedneonalleyatnight,handheldwithsubtlenaturalmicro-shake,wetreflectionsonthepavement,sheglancesbackmid-stride,slightautofocusbreathingduringtheturn,urgentpace,realisticmotionphysics,layeredambientaudiowithbreathanddistanttirehiss,cinematicbutgrounded.→ s5
程序控制类型/指令/提示词Usingonlythesupporteddetailsfromtheanalysisabove,produce: 1.onefullgenerationprompt, 2.oneshorterplatform-friendlyprompt, 3.oneshotlist, 4.onenotelistingwhatshouldremainunspecified. Donotinventseedvalues,cameraspecs,negativeprompts,oreditingstepsthatwerenotevidencedinthevideo.← 重组提示词短提示词s4o2 youngwomaninsilver-grayjacketrunningthroughaneonrainalleyatnight,verticalhandheldsmartphoneshot,subtlemicro-shake,glancebackmid-run,autofocusbreathing,wetreflections,realisticmotionphysics,urgenturbanambience
镜头表s4o3 evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing
未指定说明s4o4 Leaveunspecified:[没有证据的镜头参数/seed/后期步骤] 这里最常见的误写有 3 种: 把解释意味很强的词,误当成证据。比如 amateur 更像作者判断, natural micro-shake 更像屏幕上真能观察到的镜头状态。 把镜头现象写成作者解说。 focus briefly hunts 如果证据已经足够,可以直接压成 autofocus breathing 。 把声音当背景气氛删掉。很多时候,声音不是装饰,而是在固定动作节奏。 还有一类信息,宁可先空着: 具体焦段、传感器、机型参数 seed 、负面提示词、参考图、局部重绘流程 后期剪辑、调色和音效层里没有直接证据的制作细节 这些东西当然会影响成片,但视频没给够证据时,硬塞进去只会让 prompt 更像行话,不会让结果更像原片。
s5
(AI 视频生成工具) 元素生成 长提示词,得到 生成视频
主体生成视频长提示词Verticalsmartphonefootageofayoungwomaninasilver-grayjacketrunningthrougharain-soakedneonalleyatnight,handheldwithsubtlenaturalmicro-shake,wetreflectionsonthepavement,sheglancesbackmid-stride,slightautofocusbreathingduringtheturn,urgentpace,realisticmotionphysics,layeredambientaudiowithbreathanddistanttirehiss,cinematicbutgrounded.← s4o1(AI 视频生成工具)生成/元素生成使用长提示词生成视频生成视频s5o1 <使用长提示词生成的视频,展示夜晚雨巷里穿银灰夹克的年轻女人奔跑并回头的画面>→ s6
s6
通过 human 对照 验收表 检验 生成视频,得到 验收结果
检验视频内容类型/素材/化学变化/参考视频<一段8秒竖屏AI视频:夜晚雨巷里,一个穿银灰夹克的年轻女人向前奔跑,中途快速回头,镜头有明显手持微颤,地面有霓虹反光,音轨里能听见急促呼吸和远处轮胎碾过积水的声音。>← 工序输入human获取/引用/选取对照偏差判断验收表,对生成的视频进行验收验收结果s6o1 verification: first_regen:partial_match next_fix:strengthendelayedcameratracking→ s7
生成视频<使用长提示词生成的视频,展示夜晚雨巷里穿银灰夹克的年轻女人奔跑并回头的画面>← s5o1
验收表用一套可复查的验收表判断偏差出在主体、动作、镜头还是节奏。 把一次反推沉淀成字段资产,而不是散落在聊天记录里的灵感碎片。← 验收表
s7
通过 human结构化中间层验收结果 入库 沉淀为 字段资产库记录
工艺规约提示词结构化中间层clip_id:neon-alley-run-001 source_type:ai-generated subject: -youngwomaninsilver-grayjacket action: -runningforwardthroughwetalley -glancesbackmid-stride -visibleweightshiftbeforetheturn camera: -verticalhandheldframing -subtlemicro-shake -autofocusbreathingduringtheturn environment: -neonreflectionsonwetpavement -nightalleywithcompresseddepth audio: -urgentbreathing -distanttirehissthroughpuddles finish: -cinematicbutgrounded unknowns: -exactlenslength -seedandnegativeprompt evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing verification: first_regen:partial_match next_fix:strengthendelayedcameratracking← s3o1human存储/沉淀/入库将反推的字段和验收结果整理并沉淀到资产库字段资产库记录s7o1 clip_id:neon-alley-run-001 source_type:ai-generated subject: -youngwomaninsilver-grayjacket action: -runningforwardthroughwetalley -glancesbackmid-stride -visibleweightshiftbeforetheturn camera: -verticalhandheldframing -subtlemicro-shake -autofocusbreathingduringtheturn environment: -neonreflectionsonwetpavement -nightalleywithcompresseddepth audio: -urgentbreathing -distanttirehissthroughpuddles finish: -cinematicbutgrounded unknowns: -exactlenslength -seedandnegativeprompt evidence: -00:00-00:03:handheldrun-upandwetreflections -00:03-00:05:glance-backplusfocusbreathing verification: first_regen:partial_match next_fix:strengthendelayedcameratracking→ 返回 字段资产库记录
验收结果verification: first_regen:partial_match next_fix:strengthendelayedcameratracking← s6o1