tools_research.md 7.0 KB

工具研究报告

一、姿态提取工具

1. MediaPipe Pose(选用)

2. OpenPose(参考)

  • 来源: CMU开发,SD WebUI内置
  • 关键点数量: 18个(基础版)
  • SD WebUI预处理器:
    • openpose:基础关键点(眼、鼻、脖子、肩、手腕、膝盖、脚踝)
    • openpose_face:openpose + 面部细节
    • openpose_faceonly:仅面部细节
    • openpose_hand:openpose + 手和手指
    • openpose_full:提取以上所有信息
    • dw_openpose_full:openpose_full的加强版
  • 控制模型: control_v11p_sd15_openpose.pth
  • 来源URL: https://www.xiaohongshu.com/explore/66d79b89000000000c019bb1

二、色彩提取工具

1. scikit-learn KMeans(选用)

2. T2I-Adapter Color(参考)


三、视觉语言模型(VLM)

1. Google Gemini 2.0 Flash(选用)

  • 用途: 图像语义分析,结构化JSON输出
  • 优势: 2024年最新模型,多模态理解能力强,中文语境理解好
  • 调用方式: OpenRouter API
  • 应用场景: 人物外观描述、构图分析、光影分析、画中画内容分析

2. 其他VLM参考


四、生成模型控制工具

1. ControlNet(核心控制框架)

  • 用途: 结构约束,控制姿态/构图/色彩
  • 关键经验:
    • 写实摄影用 Pose+Depth 双控就够了,不要开3个
    • strength参数:0.4~0.6保留结构+允许创作(最常用)
    • 图生图流程:参考图 → LLM反推语义 → ControlNet锁结构 → 重新生成
  • 来源URL: https://www.xiaohongshu.com/explore/697081e0000000000c037f22 (ComfyUI ControlNet学习)

2. Flux + ControlNet(最新方案,2025年)

3. Flux + Redux(人物一致性方案)

4. ComfyUI + OpenPose(姿态控制)

5. FLUX模型 + 深度图+线稿双控(模特生成)

  • 用途: 高级感产品模特图生成
  • 工作流: 实拍姿势图 → 深度图+线稿同时启用 → 文生图 → 图生图融合(重绘幅度0.3-0.4)
  • 关键经验:
    • 深度图+线稿同时启用效果最佳
    • 图生图重绘幅度0.3-0.4最佳
    • 建议先跑3-5组测试效果
  • 来源URL: https://www.xiaohongshu.com/explore/67fbdf5e000000000903905b

五、人物一致性工具

1. IP-Adapter(图像提示适配器)

2. ACE + Redux(模特特征迁移)

3. 提示词人物一致性(最简单方案)


六、工具选择总结

工具 用途 选用理由 状态
MediaPipe Pose 姿态骨骼提取 33关键点,Python友好,无需GPU ✅ 已选用
scikit-learn KMeans 色彩调色板提取 标准方法,稳定可重复 ✅ 已选用
Google Gemini 2.0 Flash VLM语义分析 最新模型,结构化输出 ✅ 已选用
ControlNet OpenPose 生成时姿态控制 标准控制信号,直接可用 📋 还原时使用
T2I-Adapter Color 生成时色彩控制 色彩分布控制 📋 还原时使用
Flux + Redux 人物一致性 服饰+面部特征迁移 📋 还原时使用
ComfyUI 工作流编排 节点化工作流,灵活组合 📋 还原时使用

报告更新时间: 2026年3月4日