工具研究报告
一、姿态提取工具
1. MediaPipe Pose(选用)
- 来源: Google开发,Python友好
- 版本: 0.10.9(2024年更新)
- 关键点数量: 33个(比OpenPose的18个更精细)
- 优势: 无需GPU,安装简单,支持归一化坐标
- ControlNet兼容性: 输出格式与ControlNet OpenPose兼容
- GitHub参考:
2. OpenPose(参考)
- 来源: CMU开发,SD WebUI内置
- 关键点数量: 18个(基础版)
- SD WebUI预处理器:
- openpose:基础关键点(眼、鼻、脖子、肩、手腕、膝盖、脚踝)
- openpose_face:openpose + 面部细节
- openpose_faceonly:仅面部细节
- openpose_hand:openpose + 手和手指
- openpose_full:提取以上所有信息
- dw_openpose_full:openpose_full的加强版
- 控制模型: control_v11p_sd15_openpose.pth
- 来源URL: https://www.xiaohongshu.com/explore/66d79b89000000000c019bb1
二、色彩提取工具
1. scikit-learn KMeans(选用)
- 用途: 提取图像主色调
- 方法: K均值聚类,K=6(全局)或K=4(背景)
- 输出: RGB/HEX/HSL多种格式 + 比例
- GitHub参考:
2. T2I-Adapter Color(参考)
- 用途: ControlNet颜色控制
- 预处理器: t2iaColor(色彩像素化)
- 功能: 提取参考图的色彩分布并应用到生成图
- 来源URL:
三、视觉语言模型(VLM)
1. Google Gemini 2.0 Flash(选用)
- 用途: 图像语义分析,结构化JSON输出
- 优势: 2024年最新模型,多模态理解能力强,中文语境理解好
- 调用方式: OpenRouter API
- 应用场景: 人物外观描述、构图分析、光影分析、画中画内容分析
2. 其他VLM参考
- VLM-FO1: Om AI Lab发布,专注于精准物体识别和区域理解
- ATPrompt: 属性锚定提示,提升VLM泛化能力
四、生成模型控制工具
1. ControlNet(核心控制框架)
2. Flux + ControlNet(最新方案,2025年)
- 用途: 高质量写实人像生成
- 工作流: Flux生成初始帧 → ControlNet Tile调整布局和姿势 → 姿势网格参考
- 优势: 比传统SD方案更精确地指定角色的姿势和布局,提升一致性
- 适用场景: 人物、动物、风景等多种主题
- 来源URL:
3. Flux + Redux(人物一致性方案)
4. ComfyUI + OpenPose(姿态控制)
- 用途: 通过OpenPose控制人物姿态
- 节点: AIO Aux Preprocessor(通用预处理节点)
- 关键经验:
- 提示词中不要出现跟姿态相冲突的内容
- 适用于人像摄影、IP角色设计、产品广告、布景、构图
- 来源URL:
5. FLUX模型 + 深度图+线稿双控(模特生成)
五、人物一致性工具
1. IP-Adapter(图像提示适配器)
- 用途: 使用图片作为生成图像的提示词,复制参考图的风格/构图/人物特征
- 版本: ip-adapter_clip_h 迁移性最强
- 来源URL:
2. ACE + Redux(模特特征迁移)
3. 提示词人物一致性(最简单方案)
六、工具选择总结
| 工具 |
用途 |
选用理由 |
状态 |
| MediaPipe Pose |
姿态骨骼提取 |
33关键点,Python友好,无需GPU |
✅ 已选用 |
| scikit-learn KMeans |
色彩调色板提取 |
标准方法,稳定可重复 |
✅ 已选用 |
| Google Gemini 2.0 Flash |
VLM语义分析 |
最新模型,结构化输出 |
✅ 已选用 |
| ControlNet OpenPose |
生成时姿态控制 |
标准控制信号,直接可用 |
📋 还原时使用 |
| T2I-Adapter Color |
生成时色彩控制 |
色彩分布控制 |
📋 还原时使用 |
| Flux + Redux |
人物一致性 |
服饰+面部特征迁移 |
📋 还原时使用 |
| ComfyUI |
工作流编排 |
节点化工作流,灵活组合 |
📋 还原时使用 |
报告更新时间: 2026年3月4日