工具研究报告

一、姿态提取工具

1. MediaPipe Pose（选用）

来源: Google开发，Python友好
版本: 0.10.9（2024年更新）
关键点数量: 33个（比OpenPose的18个更精细）
优势: 无需GPU，安装简单，支持归一化坐标
ControlNet兼容性: 输出格式与ControlNet OpenPose兼容
GitHub参考:
- https://github.com/rohitshetty/pose-overlay (Python toolkit for video pose estimation with MediaPipe)
- https://github.com/HeleenaRobert/human-pose-estimation (Human pose estimation using MediaPipe Pose & OpenCV)
- https://github.com/venkatesh-madanwale/Skeleton-Detection (MediaPipe landmark detection)

2. OpenPose（参考）

来源: CMU开发，SD WebUI内置
关键点数量: 18个（基础版）
SD WebUI预处理器:
- openpose：基础关键点（眼、鼻、脖子、肩、手腕、膝盖、脚踝）
- openpose_face：openpose + 面部细节
- openpose_faceonly：仅面部细节
- openpose_hand：openpose + 手和手指
- openpose_full：提取以上所有信息
- dw_openpose_full：openpose_full的加强版
控制模型: control_v11p_sd15_openpose.pth
来源URL: https://www.xiaohongshu.com/explore/66d79b89000000000c019bb1

二、色彩提取工具

1. scikit-learn KMeans（选用）

用途: 提取图像主色调
方法: K均值聚类，K=6（全局）或K=4（背景）
输出: RGB/HEX/HSL多种格式 + 比例
GitHub参考:
- https://github.com/Niteshmeena9672/ColorExtraction-Using-KMeans-Clustering (Flask-based dominant color extraction)
- https://github.com/nehamehta2110/Dominant-Color-extraction-Kmeans (K-Means dominant palette colors)
- https://github.com/kwizatz-haderach/ImageColorExtraction (scikit-learn KMeans color extraction)

2. T2I-Adapter Color（参考）

用途: ControlNet颜色控制
预处理器: t2iaColor（色彩像素化）
功能: 提取参考图的色彩分布并应用到生成图
来源URL:
- https://www.xiaohongshu.com/explore/67a487fa000000002902a16f (ControlNet控制类型)
- https://www.xiaohongshu.com/explore/660a772a000000001a0173cd (T2I-Adapter用法)
- https://www.xiaohongshu.com/explore/68f5b3ec0000000005032e0c (T2I-Adapter-SDXL)

三、视觉语言模型（VLM）

1. Google Gemini 2.0 Flash（选用）

用途: 图像语义分析，结构化JSON输出
优势: 2024年最新模型，多模态理解能力强，中文语境理解好
调用方式: OpenRouter API
应用场景: 人物外观描述、构图分析、光影分析、画中画内容分析

2. 其他VLM参考

VLM-FO1: Om AI Lab发布，专注于精准物体识别和区域理解
- 来源: https://www.xiaohongshu.com/explore/68a2c34d000000001d01bde8
ATPrompt: 属性锚定提示，提升VLM泛化能力
- 来源: https://www.xiaohongshu.com/explore/687a4389000000000d0269b0

四、生成模型控制工具

1. ControlNet（核心控制框架）

用途: 结构约束，控制姿态/构图/色彩
关键经验:
- 写实摄影用 Pose+Depth 双控就够了，不要开3个
- strength参数：0.4~0.6保留结构+允许创作（最常用）
- 图生图流程：参考图 → LLM反推语义 → ControlNet锁结构 → 重新生成
来源URL: https://www.xiaohongshu.com/explore/697081e0000000000c037f22 (ComfyUI ControlNet学习)

2. Flux + ControlNet（最新方案，2025年）

用途: 高质量写实人像生成
工作流: Flux生成初始帧 → ControlNet Tile调整布局和姿势 → 姿势网格参考
优势: 比传统SD方案更精确地指定角色的姿势和布局，提升一致性
适用场景: 人物、动物、风景等多种主题
来源URL:
- https://www.xiaohongshu.com/explore/66f8a185000000001902c68f (Flux+ControlNet一致帧)
- https://www.xiaohongshu.com/explore/68954436000000002501580b (Flux+CN人物一致性)

3. Flux + Redux（人物一致性方案）

用途: 迁移人物服饰和面部特征
工作流: Flux+CN生图（控制姿态）→ Redux迁移人物特征 → 重绘细节
效果: 白底图效果最好，带背景的人物效果需要抽卡
来源URL: https://www.xiaohongshu.com/explore/68954436000000002501580b

4. ComfyUI + OpenPose（姿态控制）

用途: 通过OpenPose控制人物姿态
节点: AIO Aux Preprocessor（通用预处理节点）
关键经验:
- 提示词中不要出现跟姿态相冲突的内容
- 适用于人像摄影、IP角色设计、产品广告、布景、构图
来源URL:
- https://www.xiaohongshu.com/explore/6731c5a7000000021b01a642 (ComfyUI姿态控制)
- https://www.xiaohongshu.com/explore/69610ae9000000001a026d9f (ComfyUI+Pose实战)

5. FLUX模型 + 深度图+线稿双控（模特生成）

用途: 高级感产品模特图生成
工作流: 实拍姿势图 → 深度图+线稿同时启用 → 文生图 → 图生图融合（重绘幅度0.3-0.4）
关键经验:
- 深度图+线稿同时启用效果最佳
- 图生图重绘幅度0.3-0.4最佳
- 建议先跑3-5组测试效果
来源URL: https://www.xiaohongshu.com/explore/67fbdf5e000000000903905b

五、人物一致性工具

1. IP-Adapter（图像提示适配器）

用途: 使用图片作为生成图像的提示词，复制参考图的风格/构图/人物特征
版本: ip-adapter_clip_h 迁移性最强
来源URL:
- https://www.xiaohongshu.com/explore/65f814b6000000000d00f30c (IP-Adapter教程)
- https://www.xiaohongshu.com/explore/66f6389200000002190261a5 (IP-Adapter图片风格提示)

2. ACE + Redux（模特特征迁移）

用途: 迁移模特特征（服饰+面部）
工作流: OpenPose控制姿态 + ACE+Redux迁移特征 + 拼图参照
来源URL: https://www.xiaohongshu.com/explore/67c7ba710000000212015d0c

3. 提示词人物一致性（最简单方案）

用途: 通过精确提示词保持人物一致性
方法: 图生图+提示词融合，在对话框内实现
关键提示词结构: 人物描述（发型/服装/配饰）+ 场景描述 + 质量词
来源URL: https://www.xiaohongshu.com/explore/6975c916000000001a036583

六、工具选择总结

工具	用途	选用理由	状态
MediaPipe Pose	姿态骨骼提取	33关键点，Python友好，无需GPU	✅ 已选用
scikit-learn KMeans	色彩调色板提取	标准方法，稳定可重复	✅ 已选用
Google Gemini 2.0 Flash	VLM语义分析	最新模型，结构化输出	✅ 已选用
ControlNet OpenPose	生成时姿态控制	标准控制信号，直接可用	📋 还原时使用
T2I-Adapter Color	生成时色彩控制	色彩分布控制	📋 还原时使用
Flux + Redux	人物一致性	服饰+面部特征迁移	📋 还原时使用
ComfyUI	工作流编排	节点化工作流，灵活组合	📋 还原时使用

报告更新时间: 2026年3月4日

tools_research.md 7.0 KB Histórico Raw

工具研究报告

一、姿态提取工具

1. MediaPipe Pose（选用）

2. OpenPose（参考）

二、色彩提取工具

1. scikit-learn KMeans（选用）

2. T2I-Adapter Color（参考）

三、视觉语言模型（VLM）

1. Google Gemini 2.0 Flash（选用）

2. 其他VLM参考

四、生成模型控制工具

1. ControlNet（核心控制框架）

2. Flux + ControlNet（最新方案，2025年）

3. Flux + Redux（人物一致性方案）

4. ComfyUI + OpenPose（姿态控制）

5. FLUX模型 + 深度图+线稿双控（模特生成）

五、人物一致性工具

1. IP-Adapter（图像提示适配器）

2. ACE + Redux（模特特征迁移）

3. 提示词人物一致性（最简单方案）

六、工具选择总结

tools_research.md 7.0 KB

Histórico Raw