摘要: 用 Google Gemini 将 YouTube 热门视频逆向解构为 6 维度分镜分析报告,自动生成可直接用于 Veo3 的 AI 视频提示词,验证视频提示词反推工作流的可行性。
图片反推已经不是什么新鲜事儿了,但是视频反推一直是个技术难点,目前市场上最好用的反推工具,应该就是Google Studio了。
直接登陆Gemini:
https://gemini.google.com/
(前提条件是要开魔法,而且最好选择米国,没有魔法的小伙伴先去搞定工具,能红杏再说。)
一个完整的视频提示词一般至少要包含这么几部分:
1、景深;2、主体;3、环境氛围;4、风格特征;5、声音、氛围;6、质感。
基于此,我设计了一个视频反推的提示词:
咱们一起来拆解一个在youtube上点击量比较高的视频,看看Google如何对它进行拆解。
上传视频,将那段提示词复制进去。
看看Gemini给咱们反馈的:
拆解的内容很详细,而且直接给了文生视频的提示词,一共3个分镜,再将提示词复制到veo3里生成视频,看看效果如何:
没有办法做到完全一模一样,但至少大差不差,如果想做到跟原视频一样,还需要仔细打磨提示词,我是连看没看直接生的。
好啦,玩儿去吧,散会。
(如果你喜欢我的文章,请
关注、点赞、转发
一下,感谢你的喜爱。)
最全的AIGC资讯就在赛博大表姐
喜欢的话,关注一下我吧~
●
超简单!Kimi+奇域批量制作新中式图片,手机就能操作!!
●
超好用!手机上就能用的10个AI工具,关键还免费~
●
升级版!一小时做100个爆款短视频(附极致详细教程)
●
ChatTTS+LLM又炸了!我发现了一个无限生成播客的秘密……
●
一年如何读完365本书?AI来帮你实现。
●
图文赛道大爆发啦!这样做,商单接到手软~秒变商单达人!
●
爆款拆解|千万粉丝的爆火治愈系风景短视频长什么样?
●
合集|我常用的6个AI绘图工具,国内国外都有!
●
我常用的5个国内大模型,这些就够用了。
●
用Kimi,将播客中的内容重新提炼,写成公众号文章
●
爆打工人告别加班,用Kimi提取图片中的表格
●
【建议收藏】一天做100个小红书图文笔记,详细教程
| 需求 | 输入 | 实现 | 输出 | |||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| # | 目的 | 作用 | 实质 | 形式 | 类型 | 变量名 | 值 | 来源 | 外部工具 | 动作 | 指令 | 配置 | 运行 | 备注 | 逻辑控制 | 特性 | 实质 | 形式 | 类型 | 变量名 | 值 | 去处 | ||
| s1 | 用 human 撰写 工艺规约 提示词 反推元提示词 | 工艺规约 | /理念/知识/商业/前沿技术/AI智能/AI应用 | /架构/逻辑/信息编排逻辑/条目列举/分段结构/规范框架 | 程序控制类型/指令/描述 | 反推任务需求 | 对某段网络视频(如 YouTube 高点击量视频)进行分镜反推,获取可用于 AI 视频生成的提示词并验证重生成效果 | ← 工序输入 | human | 生成/元素生成 | 核心创作:设计了一套以「电影叙事解构师+AI影像提示词专家」双角色为框架的 6 维度反推元提示词,六个维度为:①镜头语言与摄影语法、②叙事焦点与主体行动、③环境氛围与质感要素、④风格特征与光影逻辑、⑤声音与氛围营造、⑥提示词生成与结构化输出(每个分镜对应一条完整 AI 视频生成提示词) | - | 人工 | /理念/方法/生活技巧/办事指南 | /架构/逻辑/信息编排逻辑/条目列举/逐条罗列/序号列举 | 程序控制类型/指令/提示词 | 反推元提示词 | 请你以电影叙事解构师和AI影像提示词专家的身份,对我提供的视频素材进行逐镜解析。你的任务是:在还原镜头语言与视听细节的同时,逆向生成能够驱动AI视频生成的精准提示词。 在分析时,你需要遵循以下六个维度: 1. 镜头语言与摄影语法:识别镜头类型(远景、特写等)、机位高低、运动轨迹以及构图逻辑。 2. 叙事焦点与主体行动:指出画面中的关键人物或物体,并解读其动作、姿态所承载的叙事功能。 3. 环境氛围与质感要素:拆解空间布景、场所特征,以及可感知的材质与细节。 4. 风格特征与光影逻辑:提炼作品的美学风格,并解析光线来源、色彩倾向、对比关系。 5. 声音与氛围营造:结合画面,推演其可能对应的声效、音乐或环境音,说明它们对沉浸感的贡献。 6. 提示词生成与结构化输出:基于以上维度,将分析结果整合为一组条理清晰、可直接用于AI视频生成的提示词,每个分镜都需要对应一条完整的提示。 | → s3 | |||||
| s2 | 用 human 选取 描述 得 对标内容 | 预准备 | /表象/视觉/实体/机构/商业机构 | /呈现/视觉/视觉制作/构图编排/版面设计/版面结构 | 程序控制类型/指令/描述 | 视频平台 | YouTube | ← 工序输入 | human | 获取/引用/选取 | 选择 YouTube 上点击量比较高的视频作为反推实验素材;本 case 选用一只熟睡小白兔被手轻抚的短视频(约 14 秒) | - | 人工 | /表象/视觉/实体/动物/宠物 | /呈现/视觉/视觉制作/实景拍摄 | 内容类型/素材/化学变化/对标内容 | 目标视频 | <YouTube 高点击量短视频:一只熟睡的小白兔(白色绒毛、浅棕色爪子)蜷缩在翠绿生菜叶片上,第一只手轻轻抚摸并挠痒,后另一只手从下方托举兔子;画面柔和温暖,呈现田园质感;时长约 14 秒> | → s3, → s5 | |||||
| s3 | 用 Gemini 反推 对标内容+提示词 得 分析报告 与 提示词序列 | 预处理 | /表象/视觉/实体/动物/宠物 | /呈现/视觉/视觉制作/实景拍摄 | 内容类型/素材/化学变化/对标内容 | 目标视频 | <YouTube 高点击量短视频:一只熟睡的小白兔(白色绒毛、浅棕色爪子)蜷缩在翠绿生菜叶片上,第一只手轻轻抚摸并挠痒,后另一只手从下方托举兔子;画面柔和温暖,呈现田园质感;时长约 14 秒> | ← s2.目标视频 | Gemini | 提取/化学提取/反推 | 请你以电影叙事解构师和AI影像提示词专家的身份,对我提供的视频素材进行逐镜解析。你的任务是:在还原镜头语言与视听细节的同时,逆向生成能够驱动AI视频生成的精准提示词。
在分析时,你需要遵循以下六个维度:
1. 镜头语言与摄影语法:识别镜头类型(远景、特写等)、机位高低、运动轨迹以及构图逻辑。
2. 叙事焦点与主体行动:指出画面中的关键人物或物体,并解读其动作、姿态所承载的叙事功能。
3. 环境氛围与质感要素:拆解空间布景、场所特征,以及可感知的材质与细节。
4. 风格特征与光影逻辑:提炼作品的美学风格,并解析光线来源、色彩倾向、对比关系。
5. 声音与氛围营造:结合画面,推演其可能对应的声效、音乐或环境音,说明它们对沉浸感的贡献。
6. 提示词生成与结构化输出:基于以上维度,将分析结果整合为一组条理清晰、可直接用于AI视频生成的提示词,每个分镜都需要对应一条完整的提示。 | 模型=Gemini 2.5 Flash;访问前提=开 VPN 并选择美国节点(gemini.google.com) | 直接登录 Gemini,上传视频文件后将反推元提示词复制粘贴提交;Gemini 一次性给出分镜分析报告 + AI Video Prompt,无需追加操作 | - | 随机 | /理念/知识/思想/概念范畴/认知思辨/推理论证 /理念/知识/思想/概念范畴/关系结构/构成要素 | /架构/逻辑/信息编排逻辑/条目列举/分段结构/规范框架 | 分析报告 | 分镜解析报告 | 视频分镜结构与AI提示词逆向工程 视频概述:一只熟睡的小兔子在翠绿的生菜叶中,第一只手轻轻抚摸,挠痒,视频由特写逐渐抬起。 分析架构依循正确标准:1.影色调分析 2.主体形态与肢体动作 3.关键细节与场景材质 4.风格特色与光物理 5.沉浸式声音 6.整合与输出 分镜一(00:00-00:03):安静的白色兔兔 · 画面内容:一只白色小兔子安静地躺在翠绿的生菜叶片中间,视角平视,处于特写状态,一种宁静的感觉。 · 电影化设计:镜头类型=极特写(Extreme Close-up);镜头高度=平视(Eye-level shot);镜头运动=静止(Static shot);构图=对称构图,小兔子位于画面中心,周围是绿色生菜,形成一个天然的「兔窝」框,视觉焦点完全集中在小兔子身上。 · 主角画面与主要性动作:主题=安静熟睡的小兔子,叙事动作=安静热睡着,四肢放松,展现出绒毛的舒适和惬意;这个动作本身象传递出一种安慰,无关乎无关无关,传递出一种宁静感。 · 世界构建与材质细节:世界材质=翠绿生菜叶片,边缘清晰,可以看到有些卷曲;材质细节=小兔子的绒毛柔滑,生菜叶:蔬菜的细嫩,反射出生菜的清新、水嫩、素雅和细腻的光泽。 · 风格特征与光线物理:风格核心=油墨系、细腻国风,宠物拍摄。光线物理=自然光(Natural light),柔和,均匀,没有强阴影,呈现出大腸温暖、柔润感,给人一种上方温暖、亲近、柔和的感觉,从以上方向照射,使画面出现了自然而美丽的效果。 · 沉浸式声音:环境中:沉静的环境声,有柔和的,和暖的 BGM,BGM是一首宁静舒缓的乐曲,搭色调暖的钢琴曲。 · 整合与输出(AI Video Prompt):A fluffy white bunny with fur and light brown paws is sound asleep, curled up on its back, nestled in the center of fresh, vibrant green lettuce leaves. The shot is a static, eye-level extreme close-up, focusing on the bunny. The lighting is soft, natural daylight, creating a gentle, warm ambiance with a shallow depth of field. The scene has a peaceful and idyllic rural feel, emphasizing the fluffy texture of the bunny's fur and the dewy realism of the lettuce. The color palette is dominated by pure white and lush green. 分镜二(00:04-00:08):温柔的触摸 · 画面内容:一只人类的手指温柔地轻抚小兔子的脸颊和耳朵,小兔微微动动,但没有醒来,像是睡梦中感到被保护着的温柔。 · 电影化设计:镜头类型=特写(Close-up);镜头高度=平视(Eye-level shot);镜头运动=静止(Static shot);构图=以偏心位置构图,引入了新元素——人类的手,打破了纯粹的自然界线,引入了人与动物的互动元素。 · 主角画面与主要性动作:主题=人类手。叙事动作=人手轻温柔地抚摸小兔子的脸颊和耳朵,这个动作充满了爱护保护,传递出人与兔子建立的特殊关系,增强了人与动物的亲密感和真实感。 · 世界构建与材质细节:背景=进一步一分隔了生菜叶,可以看到下面的材质细节。材质细节=展现了人类手指的皮肤纹理和细腻指节,与小兔子柔软的绒毛形成对比(微观细节),增强了画面的真实感。 · 风格特征与光线物理:风格核心=油墨系,细腻,情感互动。光线物理=柔和的自然光,光线聚焦在运动区域,是出了手与兔子接触的关键。 · 沉浸式声音:声音=BGM持续。 · 整合与输出(AI Video Prompt):A cinematic close-up shot captures a human finger gently touching the face and twitching ear of a sleeping, fluffy baby bunny. The bunny is nestled in fresh, green lettuce leaves. The motion is slow and tender; the scene's style is whimsical and heartwarming, bathed in soft, natural daylight that illuminates the delicate textures of both the human skin and the bunny fur, highlighting the intimate interaction. 分镜三(00:09-00:13):被温柔惊醒 · 画面内容:人类手小心地将小兔子抬了起来,兔子被轻轻推完托起,小兔子在手中似乎保持着熟睡的姿势,随起随动。 · 电影化设计:镜头类型=特写(Close-up)变为平视(Eye-level shot);镜头高度=较低(Low-angle shot)转为平视(Eye-level shot);镜头运动=缓慢推进(Slow crane shot)变为手持(Handheld shot),平稳地向上移动,跟随着兔子上升;构图=构图中小兔子在生菜中,转移到在手掌中,手的深度形成了一个了的「容器」感。 · 主角画面与主要性动作:主题=人类的手。叙事动作=人手完整地抬起了小兔子,这个动作故事性较强,象征着呵护、观察和守护,体现了主人的关爱。挑起看可以,进一步目睹了小兔子从熟睡到被轻轻惊醒的全程。 · 世界构建与材质细节:背景=场景发生了移动,背景变化,焦点全集中在小兔子和手上。材质细节=突出了人体手部的柔和感,以及被托起时兔子的柔软和重量感,进一步深化了材质对比。 · 风格特征与光线物理:风格核心=油墨系,宁静,任性,情感互动。光线物理=自然光,光线被有化,使小兔子的色彩更加清晰,光线的有化则强调使小兔子的毛色更加洁白清透。 · 沉浸式声音:声音=BGM持续。 · 整合与输出(AI Video Prompt):A cinematic, dynamic tracking shot from a low angle. A human hand gently reaches in and lifts a sleeping, fluffy baby bunny from a bed of green lettuce leaves. The bunny remains asleep and only reacts slightly in the palm of the hand. The scene is captured in soft, natural daylight, creating a gentle glow that emphasizes the pure white fur of the bunny against the earthy tones of the hand, conveying a sense of profound trust and protection. 结论:视频用三个镜头叙述了一个与柔美兔子互动的故事,从一只熟睡的兔子开始,用一种自然光照、细腻的拍摄方式,到人类手的缓慢出现,再到托举兔子的尾声,没有戏剧化的运镜,但在简单的动作中传递出深度温暖,观看者会被其触发正向情绪,视觉沉浸感出现。 | → 用户输出 | |||
| /理念/方法/生活技巧/办事指南 | /架构/逻辑/信息编排逻辑/条目列举/逐条罗列/序号列举 | 程序控制类型/指令/提示词 | 反推元提示词 | 请你以电影叙事解构师和AI影像提示词专家的身份,对我提供的视频素材进行逐镜解析。你的任务是:在还原镜头语言与视听细节的同时,逆向生成能够驱动AI视频生成的精准提示词。 在分析时,你需要遵循以下六个维度: 1. 镜头语言与摄影语法:识别镜头类型(远景、特写等)、机位高低、运动轨迹以及构图逻辑。 2. 叙事焦点与主体行动:指出画面中的关键人物或物体,并解读其动作、姿态所承载的叙事功能。 3. 环境氛围与质感要素:拆解空间布景、场所特征,以及可感知的材质与细节。 4. 风格特征与光影逻辑:提炼作品的美学风格,并解析光线来源、色彩倾向、对比关系。 5. 声音与氛围营造:结合画面,推演其可能对应的声效、音乐或环境音,说明它们对沉浸感的贡献。 6. 提示词生成与结构化输出:基于以上维度,将分析结果整合为一组条理清晰、可直接用于AI视频生成的提示词,每个分镜都需要对应一条完整的提示。 | ← s1.反推元提示词 | /理念/知识/商业/前沿技术/AI智能/AI应用 | /架构/逻辑/信息编排逻辑/条目列举/逐条罗列/序号列举 | 提示词序列 | 分镜AI提示词集 | Shot 1 (00:00-00:03): A fluffy white bunny with fur and light brown paws is sound asleep, curled up on its back, nestled in the center of fresh, vibrant green lettuce leaves. The shot is a static, eye-level extreme close-up, focusing on the bunny. The lighting is soft, natural daylight, creating a gentle, warm ambiance with a shallow depth of field. The scene has a peaceful and idyllic rural feel, emphasizing the fluffy texture of the bunny's fur and the dewy realism of the lettuce. The color palette is dominated by pure white and lush green. Shot 2 (00:04-00:08): A cinematic close-up shot captures a human finger gently touching the face and twitching ear of a sleeping, fluffy baby bunny. The bunny is nestled in fresh, green lettuce leaves. The motion is slow and tender; the scene's style is whimsical and heartwarming, bathed in soft, natural daylight that illuminates the delicate textures of both the human skin and the bunny fur, highlighting the intimate interaction. Shot 3 (00:09-00:13): A cinematic, dynamic tracking shot from a low angle. A human hand gently reaches in and lifts a sleeping, fluffy baby bunny from a bed of green lettuce leaves. The bunny remains asleep and only reacts slightly in the palm of the hand. The scene is captured in soft, natural daylight, creating a gentle glow that emphasizes the pure white fur of the bunny against the earthy tones of the hand, conveying a sense of profound trust and protection. | → s4 | |||||||||||||
| ▼ s4 | 遍历 提示词序列 在 Veo3 各生成 视频序列 | 主体生成 | /理念/知识/商业/前沿技术/AI智能/AI应用 | /架构/逻辑/信息编排逻辑/条目列举/逐条罗列/序号列举 | 提示词序列 | 分镜AI提示词集 | Shot 1 (00:00-00:03): A fluffy white bunny with fur and light brown paws is sound asleep, curled up on its back, nestled in the center of fresh, vibrant green lettuce leaves. The shot is a static, eye-level extreme close-up, focusing on the bunny. The lighting is soft, natural daylight, creating a gentle, warm ambiance with a shallow depth of field. The scene has a peaceful and idyllic rural feel, emphasizing the fluffy texture of the bunny's fur and the dewy realism of the lettuce. The color palette is dominated by pure white and lush green. Shot 2 (00:04-00:08): A cinematic close-up shot captures a human finger gently touching the face and twitching ear of a sleeping, fluffy baby bunny. The bunny is nestled in fresh, green lettuce leaves. The motion is slow and tender; the scene's style is whimsical and heartwarming, bathed in soft, natural daylight that illuminates the delicate textures of both the human skin and the bunny fur, highlighting the intimate interaction. Shot 3 (00:09-00:13): A cinematic, dynamic tracking shot from a low angle. A human hand gently reaches in and lifts a sleeping, fluffy baby bunny from a bed of green lettuce leaves. The bunny remains asleep and only reacts slightly in the palm of the hand. The scene is captured in soft, natural daylight, creating a gentle glow that emphasizes the pure white fur of the bunny against the earthy tones of the hand, conveying a sense of profound trust and protection. | ← s3.分镜AI提示词集 | - | 遍历 | - | /表象/视觉/实体/物品/影像物品 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 视频序列 | 视频片段列表 | <Veo3 生成的 3 个分镜视频片段列表,按分镜顺序排列,每段与原视频对应镜头风格大致相似,整体效果大差不差> | → s5 | |||||||
| └ s4.1 | 用 veo3 元素生成 提示词 为 视频片段 | 主体生成 | /理念/知识/商业/前沿技术/AI智能/AI应用 | /架构/逻辑/信息编排逻辑/条目列举/分段结构/规范框架 | 程序控制类型/指令/提示词 | 分镜提示词 | ← 分镜AI提示词集[i] | veo3 | 生成/元素生成 | (粘贴对应分镜的 AI Video Prompt 英文文本,直接生成,未进行任何打磨) | 作者未对提示词进行调优即直接生成;结果「大差不差」但无法做到完全一模一样;如需精确还原需仔细打磨提示词 | - | 随机 | /表象/视觉/实体/物品/影像物品/艺术创作 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/物理变化/视频片段 | 分镜视频片段 | <Veo3 生成的单个分镜视频片段,与原视频对应镜头风格相似,但无法完全一致> | → 视频片段列表.追加 | |||||
| s5 | 用 human 反推 视频序列 与 对标内容 得 评语 | 检验 | /表象/视觉/实体/物品/影像物品 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 视频序列 | 视频片段列表 | <Veo3 生成的 3 个分镜视频片段列表,按分镜顺序排列,每段与原视频对应镜头风格大致相似,整体效果大差不差> | ← s4.视频片段列表 | human | 提取/化学提取/反推 | 作者观察结论:「没有办法做到完全一模一样,但至少大差不差」;本次是连看没看直接生的,未进行任何提示词调优;验证了反推工作流的可行性 | - | 人工 | /理念/知识/思想/标准机制 | /架构/逻辑/信息编排逻辑/归纳论证/分析解读/评价判断 | 程序控制类型/评估/评语 | 重生成效果评估 | 整体大差不差,未经打磨的提示词生成效果与原视频相似;如需精确还原需仔细打磨提示词;验证了「视频 → Gemini 反推 → Veo3 重生成」工作流的可行性 | → 返回 重生成效果评估 | |||||
| /表象/视觉/实体/动物/宠物 | /呈现/视觉/视觉制作/实景拍摄 | 内容类型/素材/化学变化/对标内容 | 目标视频 | <YouTube 高点击量短视频:一只熟睡的小白兔(白色绒毛、浅棕色爪子)蜷缩在翠绿生菜叶片上,第一只手轻轻抚摸并挠痒,后另一只手从下方托举兔子;画面柔和温暖,呈现田园质感;时长约 14 秒> | ← s2.目标视频 | |||||||||||||||||||
| ↩ | 返回 提示词序列 | |||||||||||||||||||||||