摘要: 用 MiniMax API(image-01 + Hailuo-2.3-Fast + Music-2.5)和 openclaw agent 在 20 分钟内完成从分镜规划到成片合成的恐怖短片制作,记录完整工序与资源最大化策略。
就在刚刚,MiniMax 发布了其首个官方命令行工具 —— MMX CLI。
一个专门为 AI Agent 打造,可以在任意 Agent 或终端中生成文字、图像、视频、音乐、语音的工具。
建议某看看,什么叫 Token Plan?这才叫 Token Plan。
•
文本对话
— 多轮对话、流式输出、系统提示词、JSON 格式输出
•
图像生成
— 文生图,支持比例和批量控制
•
视频生成
— 异步生成,进度追踪
•
语音合成
— 30+ 音色、语速调节、流式播放
•
音乐生成
— 文生音乐,支持自定义歌词
•
图像理解
— 图片描述与识别
•
网络搜索
— MiniMax 搜索引擎
•
双区域
— 国际版(
api.minimax.io
)和国内版(
api.minimaxi.com
)自动切换
恰好这几天我一直在研究如何最大化利用 MiniMax 内的音频、视频、图片用量。
说实话,Max 套餐,每天 120 张 Image-01 生图,4 个海螺 2.3音频,以及 4 首 Muisc-2.5 的用量,不用真的很浪费。
虽然模型目前不是业内顶尖的,但是放在 25 年底的那一档里还是可以打的。
我花了 20 分钟,全程和 Openclaw 聊天,从剧情创意、到分镜、到参考图、到音乐背景、到成片。
题材是鬼片,至于为什么这样做,后面有介绍。
先看成品,一个纯理科生,没有任何影视经验,靠着自己的理解完成。
如果看完你有触动,感觉想试试,那么再往下看,我把自己的经验,全盘托出。
一、如何使用?
首先把 CLI 工具的地址发给 openclaw,让它进行安装。
https://github.com/MiniMax-AI/cli
聪明的 agent ,装好以后会做几个测试的内容,确保服务本身是通的。
🔻MMX quota show 查询套餐余量
TTS、音乐、Text 就不说了。
主要来说说,我对图片,视频模型的理解。
根据套餐内容,MiniMax Token Plan 可以使用的模型有以下特点。
1. image-01(图片)
•
文生图
:prompt → 图片
•
图生图
:
subject_reference
锁定角色一致性
•
批量生成
:
n=1~9
,一次最多9张
•
自定义尺寸
:width/height 512-2048px(必须是8的倍数)
•
返回格式
:URL(24小时有效)或base64
2.MiniMax-Hailuo-2.3 / 2.3-Fast(视频)
不支持首尾帧、不支持主体参考!
•
图生视频
:必须传
first_frame_image
(公网URL或base64)
• 格式:JPG, JPEG, PNG, WebP
• 体积:小于 20MB
• 文生视频:仅 Hailuo-2.3 支持
•
运镜指令
:免费支持15种
[指令]
语法,每组不超过 3 个复合运镜。
•
时长
:
仅6秒
•
分辨率
:
仅768P
二、实战篇
纯干货,利用最合适的方法,把这些模型用量串起来。
Step 1:脚本规划
MiniMax Max 套餐每天 4 个视频是上限。
所以的工作都是围绕 4 个视频额度来做的。
所以我们必须和 AI 讨论,先设定明确的场景、分镜、提示词。
每一个分镜、运镜,至少保证 3、4 个可选项以上,用 LLMs 抽卡来弥补质量缺陷。
1️⃣ 分镜
剧本就不说了,直接让 AI 现编内容,自己升华。
重点是分镜。
建议把人物描述、场景描述、灯光分为全部纳入,包括一些硬编码的尺寸。
2️⃣ 运镜脚本
运镜脚本很关键,hailuo-2.3 支持 6s 的视频,这 6s 可以做很多的镜头切换。
运镜脚本是画面感最重要的部分。根据前面提到的最多 3 个镜头组合的方式,把分镜细化到运镜级别的提示词。
最好再加上 [1s-2s] 这样的人工强制分镜切片。
Step 2:角色与场景
图片的量最大,120 张每天,每组 4 张的话,我们可以做 30 组分镜场景。
先抽卡一批,[文生图],筛选剧情角色。
这里不建议用 CLI,建议直接走 API ,一次性生成 5 张以上的。
设定
ref
角色为参考图,使用 [图生图] ,根据分镜提示词把视频的首帧做出来。
平均一个视频镜头,可以有 7 组的选择余地。
# 步骤1:生成角色参考图(9张选1)
image-01: n=
9
, prompt=
"疲惫女子,深蓝oversized西装,白色圆领..."
# 步骤2:用角色参考生成4个场景(shot5/7/8/9)
for
shot
in
[
"shot5"
,
"shot7"
,
"shot8"
,
"shot9"
]:
image-01 I2I:
subject_reference=[character_ref],
n=
4
,
# 每张场景4张选最优
aspect_ratio=
"16:9"
场景的话,选择文生图提示词。
同样是抽卡,让 AI Agent 结合剧本分镜自己写提示词做。
Step 3:视频生成
视频提示词。
我的建议是能用首帧 [图生视频] 的,就不要做 文生视频。
它是场景一致性的延续。
比如简单的文生视频,提示词写得再好,也没办法确保一致性。
一个余量就浪费掉了。
🔻文生视频无法保证一致性
大家不要认为首帧参考图就会固定画面。
通过运镜、提示词变化,同一个视频里的场景完全是可以做到转移的。
前 2 秒的首帧视频,只是场景内变化。
3s 以后的场景,可以在同一个视频内的逻辑范围下,转换角度、变焦、画面。
相当于把一个视频拆开来用。
这里再提 2 个视频生成的小技巧。
1️⃣ 6s 内多场景。
一个视频只有 6s 没错,但是很多分镜场景我们不需要用到 6s 。
所以一个 图生视频 = 首帧参考图 + 文生视频。
充分利用 6s 内的镜头变化,用来拆分出更多的短时间镜头,通过后期的镜头语言、剪辑软件进行拆分,用量就上来了。
2️⃣ 首尾帧一致性
安装 ffmpeg 插件。
通过脚本,我们对视频的最后一帧进行提取。
for
clip, shot
in
[(
"clip5"
,
"shot5"
), (
"clip7"
,
"shot7"
)]:
url = upload_catbox(
f"
{shot}
.png"
)
# Hailuo生成6秒视频
hailuo_2
.3
_fast:
first_frame_image=url,
prompt=
f"
{scene_desc}
[运镜指令]"
,
duration=
6
,
resolution=
"768P"
# 提取尾帧供下一条使用
extract_lastframe(
f"
{clip}
.mp4"
,
f"
{clip}
_lastframe.png"
)
这一帧的画面,我们继续作为下一个视频的首帧。
这样画面就连贯的。
但是这里要注意的是,跨视频不能做人物分镜。
因为第二个视频已经没有第一个视频里的人物参考图了。
这个时候镜头里的人物相当于是文生图。
上个视频还是女主角,下个视频人物一回头已经是一个男人。
所以 ffmpeg 的画面延续只能用在 上一个画面尾帧有人物正脸,或者纯场景的。
Step 4:音频与合成
hailuo 2.3 全系列出来的视频都是默片。
没有声音。
我们需要为视频片段创建合理的背景音、语音。
音乐支持纯音乐、歌词音乐。
想要氛围感强一点的,可以将歌词替换为呢喃声,轻声低语的,比纯音乐效果更好。
# 生成呢喃BGM(分段拼接)
for
i
in
range
(
4
):
# 4段6秒=24秒
tts_async:
text=
"嗯~嗯嗯~啦啦~啊~"
,
voice_id=
"Chinese_Sweet_Lady"
# ffmpeg最终合成
ffmpeg_concat_video(clips=[
"clip5.mp4"
,
"clip7.mp4"
,
"clip8.mp4"
,
"clip9.mp4"
])
ffmpeg_add_bgm(video=
"concat.mp4"
, audio=
"humming.mp3"
)
人物出声的话,多听听内置的音色,选择合适的,通过语速、语调、音量,来分段控制,合并。
最后,所有的视频、音乐、语音 TTS。
通过 FFMPEG 进行合并。
小技巧就是,可以留适当的空帧,用空镜头来增加氛围感和节奏感。
三、资源最大化策略
策略1:图片批量抽卡
# 最优:单次n=9
payload = {
"model"
:
"image-01"
,
"prompt"
:
"疲惫女子,深蓝西装..."
,
"n"
:
9
,
# 一次9张选最优
"aspect_ratio"
:
"16:9"
}
# 120张额度 = 13次API调用(9×13=117张,余3张)
策略2:角色一致性锁
# 用subject_reference锁定角色
payload = {
"model"
:
"image-01"
,
"prompt"
:
"同一个人在地铁站..."
,
"subject_reference"
: [{
"type"
:
"character"
,
"image_file"
:
"https://catbox.moe/xxx.png"
}],
"n"
:
4
}
策略3:视频运镜优化
# 15种指令免费可用
payload = {
"model"
:
"MiniMax-Hailuo-2.3"
,
"first_frame_image"
:
"https://catbox.moe/shot.png"
,
"prompt"
:
"女子走进车厢 [推进,变焦推进], 然后看向窗外 [左摇,上升], 镜头[固定]"
,
"duration"
:
6
,
"resolution"
:
"768P"
}
15种运镜指令:
• 移动:
[左移]
[右移]
[推进]
[拉远]
[上升]
[下降]
• 摇镜:
[左摇]
[右摇]
[上摇]
[下摇]
• 变焦:
[变焦推近]
[变焦拉远]
• 其他:
[晃动]
[跟随]
[固定]
策略4:视频尾帧接续
image-01生成首帧图 → Hailuo 2.3生成视频
↓
FFMPEG 提取尾帧 → 作为下一条首帧
最后
最后,讲三个,在我看来是现在做 AI 视频很关键的部分,可以弥补模型的缺陷。
镜头语言,AI 特色,空镜。
其一,镜头语言
前端时间很火的 《纸手机》,给我最大的启发,就是镜头语言。
短篇里,很少有多个人物出现在同一个场景下的画面。
大部分都是近景、人物特色、视线外放。
没错,人物的视线是往外的,看向镜头之外,观众会自动脑部空间,减少 AI 的出错,增加镜头的语言,补充观众的想象,一举三得。
通过对视线、想象、声音、空镜的组合,感官上就会自动推动剧情发展,这是比单独一个画面来演绎更高级、更自然的方式。
其二, AI 特色。
天然适合鬼片。
鬼片就是抽象的,不讲逻辑,存在画面故障的。
我刚才放的片子里,闹钟场景其实就是 AI 的一个废片,但是放到鬼片里,却增加了氛围感。
还有抽象的人物镜头行动方式,夸张的表情,浮夸的动作。
这些在正常片子里一眼假的内容,在鬼片里,是不是就符合逻辑了!
天才!出院!
其三,空镜头。
空镜头,可以理解为黑屏或者纯场景画面。
它对人物一致性的要求很低。
适当的空镜转场,可以调动视频的节奏,增加影片的艺术感。
没有了人物,一个纯场景的视频,它的废片率就大大降低了。
玩 AI ,文科、理科生,一起探索影视制作。
| 需求 | 输入 | 实现 | 输出 | |||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| # | 目的 | 作用 | 实质 | 形式 | 类型 | 变量名 | 值 | 来源 | 外部工具 | 动作 | 指令 | 配置 | 运行 | 备注 | 逻辑控制 | 特性 | 实质 | 形式 | 类型 | 变量名 | 值 | 去处 | ||
| s1 | 用 openclaw 元素生成 从 文本 题材设定生成含运镜指令的 脚本 分镜脚本 | 预处理 | /表象/视觉/实体/物品/影像物品/影视作品 | /呈现/视觉/视觉制作/构图编排/版面设计/版面结构 | 程序控制类型/指令/描述 | 题材设定 | 鬼片,题材《最后一班地铁》,主角 23 岁刚毕业大学生,深蓝职业装,帆布包,疲惫干枯的妆容,共 4 个视频额度 | ← 工序输入 | openclaw | 生成/元素生成 | 帮我设计一个恐怖短片分镜,题材《最后一班地铁》,主角:23岁刚毕业大学生,深蓝职业装,帆布包,疲惫干枯的妆容。共需 4 个视频镜头(shot5/7/8/9),每个分镜需包含:人物描述、场景描述、灯光、运镜指令(最多3个复合),以及对应的 image-01 生图提示词(多个变体),比例 16:9 | 建议把人物描述、场景描述、灯光全部纳入,包括硬编码的尺寸;每个分镜至少保证3-4个 prompt 变体,用 LLM 抽卡弥补质量缺陷 | - | 随机 | /表象/视觉/实体/物品/影像物品/影视作品 | /架构/逻辑/信息编排逻辑/条目列举/分段结构/规范框架 | 内容类型/半成品/序列/分镜脚本 | 分镜脚本 | <含 shot5/7/8/9 各场景:人物描述/场景描述/灯光/运镜指令(如[推进,变焦推进]/[左摇,上升]/[固定])/image 生图提示词 prompt1-4 变体,每条 16:9;含场景首帧图参考路径(如 horror_dark/ 目录)> | → s2 | ||||
| s2 | 用 openclaw 文生图 从 提示词 角色描述抽卡生成 参考图 主角参考图 | 主体生成 | /表象/视觉/实体/人物/人物特征/形象呈现 | /呈现/视觉/视觉制作/构图编排/版面设计/版面结构 | 程序控制类型/指令/提示词 | 角色提示词 | 疲惫年轻女子,深色oversized西装,白色圆领,及肩黑发,疲惫干枯妆容,帆布包,地铁站台场景 | ← s1.分镜脚本 | openclaw | 生成/元素生成 | image-01: n=9, prompt="疲惫年轻女子,深色oversized西装,白色圆领,及肩黑发,疲惫干枯妆容,帆布包,地铁站台场景", aspect_ratio="1:1" | model=image-01, n=9, aspect_ratio=1:1 | @采样(n=9, pick=人工) | 文生图适合抽卡筛选剧情角色;作者建议直接走 API(不用 CLI)一次性生成 5 张以上效率更高;120 张/日额度,每组 n=9 | - | 随机 | /表象/视觉/实体/人物/人物特征/形象呈现 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/化学变化/参考图 | 主角参考图 | <image-01 文生图,9选1人工挑选:23岁亚洲女性,深蓝职业装,帆布包,地铁站台,中景特写,疲惫神情> | → s3 | ||
| ▼ s3 | 遍历 shot5/7/8/9 共 4 个场景,以主角参考图为一致性锁,批量图生图抽卡生成各场景视频首帧图 | 主体生成 | /表象/视觉/实体/物品/影像物品/影视作品 | /架构/逻辑/信息编排逻辑/条目列举/分段结构/规范框架 | 内容类型/半成品/序列/分镜脚本 | 分镜脚本 | <含 shot5/7/8/9 各场景的完整分镜脚本,包含 image 生图提示词变体(Prompt 1-4)、运镜指令、比例 16:9> | ← s1.分镜脚本 | - | 遍历 | - | /表象/视觉/空间/空间场所/生活场景/公共设施 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/化学变化/参考图 | 首帧图列表 | <shot5/7/8/9 各场景的视频首帧图列表,共 4 张,每张均含角色一致性(subject_reference 锁定),16:9> | → s4 | |||||||
| /表象/视觉/实体/人物/人物特征/形象呈现 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/化学变化/参考图 | 主角参考图 | <image-01 文生图,9选1人工挑选:23岁亚洲女性,深蓝职业装,帆布包,地铁站台,中景特写,疲惫神情> | ← s2.主角参考图 | |||||||||||||||||||
| └ s3.1 | 用 openclaw 图生图 以 参考图 主角图锁一致性,从 提示词 场景描述生成 图片 视频首帧图 | 主体生成 | /表象/视觉/空间/空间场所/生活场景/公共设施 /表象/视觉/画面/后期/情绪意境/神秘奇幻 | /呈现/视觉/视觉制作/构图编排/版面设计/版面结构 | 程序控制类型/指令/提示词 | 场景分镜提示词 | <分镜脚本[i] 对应场景的 image 提示词,含人物描述/场景描述/灯光/比例 16:9;例(场景2车厢变黑 Prompt 1):疲惫年轻女子,深色oversized西装,白色圆领,及肩黑发,地铁车厢内,光线逐渐变暗,从正常照明到昏暗到几乎全黑,女子身影在黑暗中若隐若现,只有轮廓可见,冷色调,深蓝黑色调,恐惧疑窦氛围,远景构图,16:9> | ← s1.分镜脚本[i] | openclaw | 生成/元素生成 | image-01 I2I: subject_reference=[{type:character, image_file:主角参考图URL}], n=4, prompt=<场景分镜提示词[i]>, aspect_ratio="16:9" | model=image-01, subject_reference=[character_ref], n=4, aspect_ratio=16:9 | @采样(n=4, pick=人工) | subject_reference 锁定角色一致性;平均一个视频镜头可有 7 组选择余地;对于纯场景(无人物)镜头可不传 subject_reference,直接文生图 | - | 随机 | /表象/视觉/空间/空间场所/生活场景/公共设施 /表象/视觉/画面/后期/情绪意境/神秘奇幻 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/化学变化/参考图 | 场景首帧图 | <image-01 I2I 生成,含角色一致性的恐怖地铁场景,16:9,4选1人工挑选最优> | → 首帧图列表.追加 | ||
| /表象/视觉/实体/人物/人物特征/形象呈现 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/化学变化/参考图 | 主角参考图 | <image-01 文生图,9选1人工挑选:23岁亚洲女性,深蓝职业装,帆布包,地铁站台,中景特写,疲惫神情> | ← s2.主角参考图 | |||||||||||||||||||
| ▼ s4 | 遍历 clip5/7/8/9,图生视频生成 6s 恐怖片段并提取尾帧供下一条接续 | 主体生成 | /表象/视觉/空间/空间场所/生活场景/公共设施 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/化学变化/参考图 | 首帧图列表 | <shot5/7/8/9 各场景的视频首帧图列表,共 4 张,每张均含角色一致性,16:9> | ← s3.首帧图列表 | - | 遍历 | - | /表象/视觉/空间/空间场所/生活场景/公共设施 /表象/视觉/画面/后期/情绪意境/神秘奇幻 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/物理变化/视频片段 | 视频片段列表 | <clip5/7/8/9 共 4 段 6s 恐怖地铁场景视频,默片,768P> | → s6 | |||||||
| /表象/视觉/实体/物品/影像物品/影视作品 | /架构/逻辑/信息编排逻辑/条目列举/分段结构/规范框架 | 内容类型/半成品/序列/分镜脚本 | 分镜脚本 | <含 shot5/7/8/9 各场景的完整分镜脚本,包含视频生成提示词和运镜指令> | ← s1.分镜脚本 | /表象/视觉/空间/空间场所/生活场景/公共设施 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/物理变化/关键帧 | 尾帧图列表 | <clip5/7/8/9 各视频最后一帧图片,供下一条视频用作首帧接续(仅纯场景)> | → s4.1 | |||||||||||||
| └ s4.1 | 用 openclaw 图生视频 从 图片 首帧生成 视频片段 6s 视频 | 主体生成 | /表象/视觉/空间/空间场所/生活场景/公共设施 /表象/视觉/画面/后期/情绪意境/神秘奇幻 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/化学变化/参考图 | 场景首帧图 | <image-01 I2I 生成的恐怖地铁场景首帧,16:9;或上一条 clip 尾帧(仅纯场景情况下替换)> | ← 首帧图列表[i] | openclaw | 生成/元素生成 | hailuo_2.3_fast: first_frame_image=<首帧图URL>, prompt="<scene_desc> [运镜指令]", duration=6, resolution="768P" | model=MiniMax-Hailuo-2.3-Fast, duration=6, resolution=768P | 图生视频优先于文生视频(场景一致性);6s 内通过运镜+prompt 可做场景转移等效拆出多段镜头;最多 3 个复合运镜;首帧可改用上条 clip 尾帧(纯场景/有人物正脸时) | - | 随机 | /表象/视觉/空间/空间场所/生活场景/公共设施 /表象/视觉/画面/后期/情绪意境/神秘奇幻 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/物理变化/视频片段 | 视频片段 | <MiniMax-Hailuo-2.3-Fast 图生视频,6秒,768P,恐怖地铁场景,默片> | → 视频片段列表.追加 | |||
| /表象/视觉/空间/空间场所/生活场景/公共设施 | /呈现/视觉/视觉制作/构图编排/版面设计/版面结构 | 程序控制类型/指令/提示词 | 视频提示词 | <分镜脚本[i] 对应的视频生成 prompt,含场景描述+运镜指令;例:女子走进车厢 [推进,变焦推进], 然后看向窗外 [左摇,上升], 镜头[固定]> | ← s1.分镜脚本[i] | |||||||||||||||||||
| └ s4.2 | 用 ffmpeg 从 视频片段 提取最后一帧得到 图片 视频尾帧供下条接续 | 预处理 | /表象/视觉/空间/空间场所/生活场景/公共设施 /表象/视觉/画面/后期/情绪意境/神秘奇幻 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/物理变化/视频片段 | 视频片段 | <MiniMax-Hailuo-2.3-Fast 图生视频,6秒,768P,恐怖地铁场景> | ← s4.1.视频片段 | ffmpeg | 提取/物理提取/抽帧 | extract_lastframe(f"{clip}.mp4", f"{clip}_lastframe.png") | 尾帧接续只用在'纯场景或有人物正脸帧'的情况;跨视频不能做人物分镜(人物会漂移) | - | 幂等 | /表象/视觉/空间/空间场所/生活场景/公共设施 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/物理变化/关键帧 | 视频尾帧 | <ffmpeg 提取的视频最后一帧,供下一条 clip 用作首帧(纯场景时)> | → 尾帧图列表.追加 | ||||
| s5 | 用 openclaw 音乐生成 从 提示词 风格描述生成 音频 呢喃 BGM | 主体生成 | /表象/声音/音乐/配乐/氛围配乐 | /呈现/视觉/视觉制作/构图编排/版面设计/版面结构 | 程序控制类型/指令/提示词 | 音乐风格描述 | 空灵轻柔女低声,全是「嗯嗯嗯」呢喃,74秒,深夜地铁的呼吸感 | ← s1.分镜脚本 | openclaw | 生成/元素生成 | music-2.5: lyrics="嗯~嗯嗯~啦啦~啊~", style="空灵轻柔女低声,深夜地铁呼吸感", duration=74 | 将歌词替换为呢喃声比纯音乐氛围感更强;备选方案:speech-hd TTS 分4段生成 4×6s 呢喃后 ffmpeg 拼接(代码用 voice_id=Chinese_Sweet_Lady) | - | 随机 | /表象/声音/音乐/配乐/氛围配乐 | /呈现/听觉/配乐/情感基调/舒缓空灵 | 内容类型/准成品/BGM | 背景音乐 | bg_music_v3.mp3,2.62 MB,74秒,空灵轻柔女低声呢喃风格 | → s6 | ||||
| s6 | 用 ffmpeg 合并 将 视频片段 列表与 音频 BGM 合成 视频 短片成品 | 装配 | /表象/视觉/空间/空间场所/生活场景/公共设施 /表象/视觉/画面/后期/情绪意境/神秘奇幻 | /呈现/视觉/视觉制作/后期处理/图像合成处理/AI生成合成 | 内容类型/素材/物理变化/视频片段 | 视频片段列表 | clip5.mp4, clip7.mp4, clip8.mp4, clip9.mp4,四段 6s 恐怖地铁场景视频(默片) | ← s4.视频片段列表 | ffmpeg | 生成/关系生成/结构生成 | ffmpeg_concat_video(clips=["clip5.mp4","clip7.mp4","clip8.mp4","clip9.mp4"]); ffmpeg_add_bgm(video="concat.mp4", audio="bg_music_v3.mp3") | 可留适当空帧(黑屏/纯场景)增加氛围感和节奏感;人物发声时需单独 TTS 生成语音分段控制语速语调后合并 | - | 幂等 | /表象/视觉/实体/物品/影像物品/影视作品 | /呈现/视觉/视觉制作/剪辑组接/素材重组/混剪重组 | 内容类型/成品/视频成品 | 短片成品 | <concat.mp4 加 BGM 合成的完整恐怖短片片段,约 24s,《最后一班地铁》> | → 返回 视频 | ||||
| /表象/声音/音乐/配乐/氛围配乐 | /呈现/听觉/配乐/情感基调/舒缓空灵 | 内容类型/准成品/BGM | 背景音乐 | bg_music_v3.mp3,2.62 MB,74秒,空灵轻柔女低声呢喃风格 | ← s5.背景音乐 | |||||||||||||||||||
| ↩ | 返回 视频 | |||||||||||||||||||||||