多模态维度筛选决策

实质列表

实质	重要性	出现频次	优先级
女性人物	95	8次/6图	最高
绘画工具（调色板/画笔/颜料）	75	15次/6图	高
画架与油画	85/70	8+4次	高
自然背景（草地/树木）	60	8次/6图	中
女性衣物（白裙）	65	3次/3图	中

形式列表

形式	亮点聚类	权重	类型
白绿配色	cluster_3	高	整体色调
逆光/散景/梦幻光影	cluster_4	高	光影
画中画结构	cluster_5	中	叙事形式
构图引导（过肩/视线引导）	cluster_6	中	构图
人物姿态（站/跪/侧/背）	cluster_1	高	姿态

筛选的多模态维度（共8个）

维度1：人体姿态骨骼图（pose_skeleton）

对应实质: 女性人物（段落X.1.1系列）
对应形式: 人物姿态（cluster_1）
表示形式: PNG图像（骨骼关键点连线图）
提取工具: MediaPipe Pose（33关键点）
可逆性: 高 - 骨骼图直接作为ControlNet OpenPose的输入
生成模型友好性: 极高 - ControlNet标准输入格式
泛化价值: 高 - 骨骼姿态可复用于不同服装/场景/风格
还原中的作用: 控制人物的站立/跪姿/侧身/背影等姿态，保证多图一致性
必要性: 图片组中人物姿态多样（站立、跪姿、侧身），是最核心的控制维度

维度2：全局色彩调色板（color_palette）

对应实质: 整体图像（图像级形式）
对应形式: 白绿配色（cluster_3）
表示形式: JSON（主色调列表，含HSL值和比例）+ PNG色块可视化
提取工具: scikit-learn KMeans聚类（K=6）
可逆性: 高 - 色彩调色板可直接作为ControlNet t2iaColor的输入
生成模型友好性: 高 - 可转化为Prompt色彩描述或T2I-Adapter颜色控制
泛化价值: 高 - 白绿配色是可复用的视觉风格基因
还原中的作用: 控制整体色调，确保白裙+绿背景的清新配色一致性
必要性: cluster_3是高权重亮点，白绿配色是图片组的核心视觉特征

维度3：颜料质感色彩图（palette_texture_colors）

对应实质: 绘画工具（调色板上的颜料，段落X.1.3系列）
对应形式: 斑斓厚重的油画颜料（cluster_2_texture）
表示形式: JSON（颜料色块列表，含颜色和位置分布）+ PNG可视化
提取工具: KMeans聚类 + 区域分析
可逆性: 高 - 颜料色彩可作为局部色彩控制信号
生成模型友好性: 高 - 可描述为"impasto oil paint palette with vivid colors"
泛化价值: 高 - 颜料色彩组合可复用于其他艺术创作场景
还原中的作用: 控制调色板上颜料的色彩丰富度和分布，营造真实的艺术创作感
必要性: cluster_2_texture是独立亮点聚类，颜料质感是图片的核心视觉反差元素

维度4：人物外观语义描述（person_appearance）

对应实质: 女性人物（段落X.1系列）
对应形式: 服装（白裙）、发型（棕色长发）、配饰（耳饰/项链/手镯）
表示形式: JSON（结构化外观描述）
提取工具: VLM（视觉语言模型，如Gemini）
可逆性: 高 - 自然语言描述直接作为Prompt输入
生成模型友好性: 极高 - 最直接的生成控制信号
泛化价值: 高 - 外观描述可复用于生成同一人物的不同场景
还原中的作用: 控制人物的服装颜色、发型、配饰等外观特征，保证跨图一致性
必要性: 白裙是cluster_1的核心特征，人物外观一致性是图片组的基本要求

维度5：场景构图描述（composition_layout）

对应实质: 整体场景（图像级）
对应形式: 构图引导（cluster_6）、景别、拍摄角度
表示形式: JSON（构图参数：主体位置比例、景别类型、拍摄角度、视线引导方向）
提取工具: VLM分析 + 规则提取
可逆性: 中高 - 构图参数可转化为Prompt的构图描述
生成模型友好性: 高 - 构图描述是Prompt的重要组成部分
泛化价值: 高 - 过肩视角、视线引导等构图规律可复用于新内容创作
还原中的作用: 控制人物与画架的相对位置、拍摄角度、景别，保证构图一致性
必要性: 9张图片构图各异（背影/侧身/特写/远景），构图是区分各图的关键维度

维度6：光影氛围描述（lighting_atmosphere）

对应实质: 整体图像（图像级形式）
对应形式: 逆光/散景/梦幻光影（cluster_4）
表示形式: JSON（光照类型、方向、散景程度、整体氛围）
提取工具: VLM分析
可逆性: 高 - 光影描述可直接作为Prompt的光照控制词
生成模型友好性: 极高 - "backlight, bokeh, dreamy atmosphere"等词汇是生成模型标准控制词
泛化价值: 高 - 逆光散景是可复用的摄影风格基因
还原中的作用: 控制光照方向（逆光/侧光）、背景虚化程度、整体氛围（梦幻/清新）
必要性: cluster_4是高权重亮点，光影是图片组的核心氛围特征

维度7：背景环境色彩（background_color）

对应实质: 自然背景（段落X.3系列）
对应形式: 清新雅致的白绿配色（cluster_3的背景部分）
表示形式: JSON（背景主色调HSL值、饱和度、亮度范围）
提取工具: KMeans聚类（仅背景区域）
可逆性: 高 - 背景色彩可作为独立的色彩控制信号
生成模型友好性: 高 - 可转化为"lush green grass, natural outdoor background"等描述
泛化价值: 高 - 绿色自然背景是可复用的场景基因
还原中的作用: 控制背景的绿色调性，与白裙形成对比，营造清新户外感
必要性: 背景色彩是cluster_3的重要组成，与人物白裙的对比是核心视觉亮点

维度8：画中画内容描述（painting_content）

对应实质: 画架与油画（段落X.2.1系列）
对应形式: 画中画结构（cluster_5）
表示形式: JSON（画布内容描述、与现实场景的对应关系）
提取工具: VLM分析
可逆性: 高 - 内容描述可直接作为Prompt输入
生成模型友好性: 高 - "painting within painting, canvas showing..."等描述
泛化价值: 中 - 画中画结构是独特的叙事形式，可复用于艺术创作场景
还原中的作用: 控制画布上的内容，实现现实与艺术的"镜像"呼应关系
必要性: cluster_5是独立亮点聚类，画中画是图片组的独特叙事亮点

排除的维度及原因

排除维度	排除原因
深度图（Depth Map）	与原图过于相似，缺乏泛化价值；且本图组景深效果已通过光影描述覆盖
边缘检测图（Canny/Lineart）	与原图过于相似，为了还原而还原，缺乏创造性价值
语义分割图（Segmentation）	信息量过大，与原图相似度高；已通过其他维度覆盖各区域特征
面部特征（Face Embedding）	图片组以背影为主，面部信息有限；且面部特征过于具体，泛化性差
画面比例（Aspect Ratio）	所有图片均为1080×1439（约3:4），固定值，无需单独提取