research_summary.md 3.7 KB

AI 真实感人像 Live 图调研

日期:2026-04-30

范围

目标是从静态人像或 AI 人像生成接近真实拍摄的 live 图、实况图或短动态人像。这里的 live 图包含三种交付形态:

  • 社媒 live 实况感:2-5 秒微动短视频,强调像手机随手拍。
  • iPhone Live Photo 类:短视频片段可进一步封装为 live photo。
  • 人像驱动视频:用参考视频或音频驱动头像/半身/全身人像。

推荐路线

1. 微动 live 图

适合头像、半身写真、网感实况图。

流程:

  1. 先生成或筛选高真实感静帧。
  2. 用图生视频模型做轻微动态:眨眼、呼吸、头发/衣料轻动、微弱手持镜头。
  3. 限制运动幅度,避免脸部漂移和背景形变。
  4. 后期做清晰度、人像增强、去闪烁、压缩适配社媒。

关键词:

subtle motion, natural blink, tiny head movement, handheld phone live photo, background almost static, no face morphing, no exaggerated movement

2. 参考视频驱动

适合从一张人像生成动作更明确的 live 视频。

优先工具:

  • Wan2.2 Animate:参考视频驱动人物动作和表情,适合 full-body / half-body。
  • LivePortrait:轻量头脸表情驱动,适合头像、半身、说话前的微表情。

注意:

  • Wan Animate 更适合“动作迁移 / 角色替换”。
  • LivePortrait 更适合“脸和头部动起来”,但身体、手、背景不是强项。
  • 参考视频质量决定结果:正脸、稳定光线、动作幅度小,通常更真实。

3. 说话 live 图 / 数字人

适合头像说话、播报、产品介绍。

优先工具:

  • InfiniteTalk:音频驱动,强调长视频、身份稳定、口型同步。
  • Wan2.2 + InfiniteTalk/TTS:更完整的数字人链路。

注意:

  • 真实感不只看口型,还看眨眼、头部微动、肩颈、呼吸节奏。
  • 音频要干净,语速不要过快。

生产建议

真实感 live 图不要从“大动作”开始。更稳的商业路径是:

  1. 先做真实静帧。
  2. 用 2-3 秒微动测试人物是否漂脸。
  3. 再尝试 5 秒以上或参考视频驱动。
  4. 最后统一修复画质、肤质、闪烁和压缩。

最容易翻车的问题:

  • 脸型逐帧变化。
  • 眼睛漂移或眨眼异常。
  • 背景跟着脸一起流动。
  • 手部、牙齿、饰品变形。
  • 运动太“AI 预告片”,不像 live 图。

已整理案例

  • raw_cases/source.json:原始搜索结果。
  • case.json:已用 generate_case.py 标准化,图片已上传 OSS。
  • search_result/result.json:viewer 使用的数据。
  • viewer:search_result/index.html

关键外部资料

  • ComfyUI 官方 Wan2.2 I2V 文档:Wan2.2 支持 T2V/I2V,包含 5B/14B 模型、480P/720P、ComfyUI 原生工作流。
  • ComfyUI 官方 Wan2.2 Animate 文档:Wan Animate 有 Mix/Move 两种模式,用于角色替换和动作/表情复制。
  • Wan2.2 GitHub:官方仓库说明 I2V-A14B 支持 480P/720P 图生视频。
  • LivePortrait GitHub:肖像动画基线方案,适合头脸表情驱动。
  • InfiniteTalk:音频驱动 talking video,适合说话类 live 人像。

公众号补充

content-search 的公众号平台本轮对 8 个关键词均返回空输出,因此没有直接 API 命中的公众号结果。后续用网页搜索反查到两条 mp.weixin.qq.com 教程线索,已追加到 source.json 和 viewer:

  • Wan2.2 Remix V2 图生视频版:2025-11-08,RunningHub 页面明确给出公众号文章教程链接,适合作为图生视频/live 图路线补充。
  • Qwen image + Wan2.2 S2V 全身姿势控制:2025-09-10,超过最近半年窗口,仅作为姿势/深度控制和循环舞蹈路线参考。