AI 真实感人像 Live 图调研
日期:2026-04-30
范围
目标是从静态人像或 AI 人像生成接近真实拍摄的 live 图、实况图或短动态人像。这里的 live 图包含三种交付形态:
- 社媒 live 实况感:2-5 秒微动短视频,强调像手机随手拍。
- iPhone Live Photo 类:短视频片段可进一步封装为 live photo。
- 人像驱动视频:用参考视频或音频驱动头像/半身/全身人像。
推荐路线
1. 微动 live 图
适合头像、半身写真、网感实况图。
流程:
- 先生成或筛选高真实感静帧。
- 用图生视频模型做轻微动态:眨眼、呼吸、头发/衣料轻动、微弱手持镜头。
- 限制运动幅度,避免脸部漂移和背景形变。
- 后期做清晰度、人像增强、去闪烁、压缩适配社媒。
关键词:
subtle motion, natural blink, tiny head movement, handheld phone live photo, background almost static, no face morphing, no exaggerated movement
2. 参考视频驱动
适合从一张人像生成动作更明确的 live 视频。
优先工具:
- Wan2.2 Animate:参考视频驱动人物动作和表情,适合 full-body / half-body。
- LivePortrait:轻量头脸表情驱动,适合头像、半身、说话前的微表情。
注意:
- Wan Animate 更适合“动作迁移 / 角色替换”。
- LivePortrait 更适合“脸和头部动起来”,但身体、手、背景不是强项。
- 参考视频质量决定结果:正脸、稳定光线、动作幅度小,通常更真实。
3. 说话 live 图 / 数字人
适合头像说话、播报、产品介绍。
优先工具:
- InfiniteTalk:音频驱动,强调长视频、身份稳定、口型同步。
- Wan2.2 + InfiniteTalk/TTS:更完整的数字人链路。
注意:
- 真实感不只看口型,还看眨眼、头部微动、肩颈、呼吸节奏。
- 音频要干净,语速不要过快。
生产建议
真实感 live 图不要从“大动作”开始。更稳的商业路径是:
- 先做真实静帧。
- 用 2-3 秒微动测试人物是否漂脸。
- 再尝试 5 秒以上或参考视频驱动。
- 最后统一修复画质、肤质、闪烁和压缩。
最容易翻车的问题:
- 脸型逐帧变化。
- 眼睛漂移或眨眼异常。
- 背景跟着脸一起流动。
- 手部、牙齿、饰品变形。
- 运动太“AI 预告片”,不像 live 图。
已整理案例
raw_cases/source.json:原始搜索结果。
case.json:已用 generate_case.py 标准化,图片已上传 OSS。
search_result/result.json:viewer 使用的数据。
- viewer:
search_result/index.html
关键外部资料
- ComfyUI 官方 Wan2.2 I2V 文档:Wan2.2 支持 T2V/I2V,包含 5B/14B 模型、480P/720P、ComfyUI 原生工作流。
- ComfyUI 官方 Wan2.2 Animate 文档:Wan Animate 有 Mix/Move 两种模式,用于角色替换和动作/表情复制。
- Wan2.2 GitHub:官方仓库说明 I2V-A14B 支持 480P/720P 图生视频。
- LivePortrait GitHub:肖像动画基线方案,适合头脸表情驱动。
- InfiniteTalk:音频驱动 talking video,适合说话类 live 人像。
公众号补充
content-search 的公众号平台本轮对 8 个关键词均返回空输出,因此没有直接 API 命中的公众号结果。后续用网页搜索反查到两条 mp.weixin.qq.com 教程线索,已追加到 source.json 和 viewer:
- Wan2.2 Remix V2 图生视频版:2025-11-08,RunningHub 页面明确给出公众号文章教程链接,适合作为图生视频/live 图路线补充。
- Qwen image + Wan2.2 S2V 全身姿势控制:2025-09-10,超过最近半年窗口,仅作为姿势/深度控制和循环舞蹈路线参考。