# 多模态维度筛选决策

## 实质列表

| 实质 | 重要性 | 出现频次 | 优先级 |
|------|--------|----------|--------|
| 女性人物 | 95 | 8次/6图 | 最高 |
| 绘画工具（调色板/画笔/颜料） | 75 | 15次/6图 | 高 |
| 画架与油画 | 85/70 | 8+4次 | 高 |
| 自然背景（草地/树木） | 60 | 8次/6图 | 中 |
| 女性衣物（白裙） | 65 | 3次/3图 | 中 |

## 形式列表

| 形式 | 亮点聚类 | 权重 | 类型 |
|------|----------|------|------|
| 白绿配色 | cluster_3 | 高 | 整体色调 |
| 逆光/散景/梦幻光影 | cluster_4 | 高 | 光影 |
| 画中画结构 | cluster_5 | 中 | 叙事形式 |
| 构图引导（过肩/视线引导） | cluster_6 | 中 | 构图 |
| 人物姿态（站/跪/侧/背） | cluster_1 | 高 | 姿态 |

---

## 筛选的多模态维度（共8个）

### 维度1：人体姿态骨骼图（pose_skeleton）
- **对应实质**: 女性人物（段落X.1.1系列）
- **对应形式**: 人物姿态（cluster_1）
- **表示形式**: PNG图像（骨骼关键点连线图）
- **提取工具**: MediaPipe Pose（33关键点）
- **可逆性**: 高 - 骨骼图直接作为ControlNet OpenPose的输入
- **生成模型友好性**: 极高 - ControlNet标准输入格式
- **泛化价值**: 高 - 骨骼姿态可复用于不同服装/场景/风格
- **还原中的作用**: 控制人物的站立/跪姿/侧身/背影等姿态，保证多图一致性
- **必要性**: 图片组中人物姿态多样（站立、跪姿、侧身），是最核心的控制维度

### 维度2：全局色彩调色板（color_palette）
- **对应实质**: 整体图像（图像级形式）
- **对应形式**: 白绿配色（cluster_3）
- **表示形式**: JSON（主色调列表，含HSL值和比例）+ PNG色块可视化
- **提取工具**: scikit-learn KMeans聚类（K=6）
- **可逆性**: 高 - 色彩调色板可直接作为ControlNet t2iaColor的输入
- **生成模型友好性**: 高 - 可转化为Prompt色彩描述或T2I-Adapter颜色控制
- **泛化价值**: 高 - 白绿配色是可复用的视觉风格基因
- **还原中的作用**: 控制整体色调，确保白裙+绿背景的清新配色一致性
- **必要性**: cluster_3是高权重亮点，白绿配色是图片组的核心视觉特征

### 维度3：颜料质感色彩图（palette_texture_colors）
- **对应实质**: 绘画工具（调色板上的颜料，段落X.1.3系列）
- **对应形式**: 斑斓厚重的油画颜料（cluster_2_texture）
- **表示形式**: JSON（颜料色块列表，含颜色和位置分布）+ PNG可视化
- **提取工具**: KMeans聚类 + 区域分析
- **可逆性**: 高 - 颜料色彩可作为局部色彩控制信号
- **生成模型友好性**: 高 - 可描述为"impasto oil paint palette with vivid colors"
- **泛化价值**: 高 - 颜料色彩组合可复用于其他艺术创作场景
- **还原中的作用**: 控制调色板上颜料的色彩丰富度和分布，营造真实的艺术创作感
- **必要性**: cluster_2_texture是独立亮点聚类，颜料质感是图片的核心视觉反差元素

### 维度4：人物外观语义描述（person_appearance）
- **对应实质**: 女性人物（段落X.1系列）
- **对应形式**: 服装（白裙）、发型（棕色长发）、配饰（耳饰/项链/手镯）
- **表示形式**: JSON（结构化外观描述）
- **提取工具**: VLM（视觉语言模型，如Gemini）
- **可逆性**: 高 - 自然语言描述直接作为Prompt输入
- **生成模型友好性**: 极高 - 最直接的生成控制信号
- **泛化价值**: 高 - 外观描述可复用于生成同一人物的不同场景
- **还原中的作用**: 控制人物的服装颜色、发型、配饰等外观特征，保证跨图一致性
- **必要性**: 白裙是cluster_1的核心特征，人物外观一致性是图片组的基本要求

### 维度5：场景构图描述（composition_layout）
- **对应实质**: 整体场景（图像级）
- **对应形式**: 构图引导（cluster_6）、景别、拍摄角度
- **表示形式**: JSON（构图参数：主体位置比例、景别类型、拍摄角度、视线引导方向）
- **提取工具**: VLM分析 + 规则提取
- **可逆性**: 中高 - 构图参数可转化为Prompt的构图描述
- **生成模型友好性**: 高 - 构图描述是Prompt的重要组成部分
- **泛化价值**: 高 - 过肩视角、视线引导等构图规律可复用于新内容创作
- **还原中的作用**: 控制人物与画架的相对位置、拍摄角度、景别，保证构图一致性
- **必要性**: 9张图片构图各异（背影/侧身/特写/远景），构图是区分各图的关键维度

### 维度6：光影氛围描述（lighting_atmosphere）
- **对应实质**: 整体图像（图像级形式）
- **对应形式**: 逆光/散景/梦幻光影（cluster_4）
- **表示形式**: JSON（光照类型、方向、散景程度、整体氛围）
- **提取工具**: VLM分析
- **可逆性**: 高 - 光影描述可直接作为Prompt的光照控制词
- **生成模型友好性**: 极高 - "backlight, bokeh, dreamy atmosphere"等词汇是生成模型标准控制词
- **泛化价值**: 高 - 逆光散景是可复用的摄影风格基因
- **还原中的作用**: 控制光照方向（逆光/侧光）、背景虚化程度、整体氛围（梦幻/清新）
- **必要性**: cluster_4是高权重亮点，光影是图片组的核心氛围特征

### 维度7：背景环境色彩（background_color）
- **对应实质**: 自然背景（段落X.3系列）
- **对应形式**: 清新雅致的白绿配色（cluster_3的背景部分）
- **表示形式**: JSON（背景主色调HSL值、饱和度、亮度范围）
- **提取工具**: KMeans聚类（仅背景区域）
- **可逆性**: 高 - 背景色彩可作为独立的色彩控制信号
- **生成模型友好性**: 高 - 可转化为"lush green grass, natural outdoor background"等描述
- **泛化价值**: 高 - 绿色自然背景是可复用的场景基因
- **还原中的作用**: 控制背景的绿色调性，与白裙形成对比，营造清新户外感
- **必要性**: 背景色彩是cluster_3的重要组成，与人物白裙的对比是核心视觉亮点

### 维度8：画中画内容描述（painting_content）
- **对应实质**: 画架与油画（段落X.2.1系列）
- **对应形式**: 画中画结构（cluster_5）
- **表示形式**: JSON（画布内容描述、与现实场景的对应关系）
- **提取工具**: VLM分析
- **可逆性**: 高 - 内容描述可直接作为Prompt输入
- **生成模型友好性**: 高 - "painting within painting, canvas showing..."等描述
- **泛化价值**: 中 - 画中画结构是独特的叙事形式，可复用于艺术创作场景
- **还原中的作用**: 控制画布上的内容，实现现实与艺术的"镜像"呼应关系
- **必要性**: cluster_5是独立亮点聚类，画中画是图片组的独特叙事亮点

---

## 排除的维度及原因

| 排除维度 | 排除原因 |
|----------|----------|
| 深度图（Depth Map） | 与原图过于相似，缺乏泛化价值；且本图组景深效果已通过光影描述覆盖 |
| 边缘检测图（Canny/Lineart） | 与原图过于相似，为了还原而还原，缺乏创造性价值 |
| 语义分割图（Segmentation） | 信息量过大，与原图相似度高；已通过其他维度覆盖各区域特征 |
| 面部特征（Face Embedding） | 图片组以背影为主，面部信息有限；且面部特征过于具体，泛化性差 |
| 画面比例（Aspect Ratio） | 所有图片均为1080×1439（约3:4），固定值，无需单独提取 |