# 多模态维度筛选决策 ## 实质列表 | 实质 | 重要性 | 出现频次 | 优先级 | |------|--------|----------|--------| | 女性人物 | 95 | 8次/6图 | 最高 | | 绘画工具(调色板/画笔/颜料) | 75 | 15次/6图 | 高 | | 画架与油画 | 85/70 | 8+4次 | 高 | | 自然背景(草地/树木) | 60 | 8次/6图 | 中 | | 女性衣物(白裙) | 65 | 3次/3图 | 中 | ## 形式列表 | 形式 | 亮点聚类 | 权重 | 类型 | |------|----------|------|------| | 白绿配色 | cluster_3 | 高 | 整体色调 | | 逆光/散景/梦幻光影 | cluster_4 | 高 | 光影 | | 画中画结构 | cluster_5 | 中 | 叙事形式 | | 构图引导(过肩/视线引导) | cluster_6 | 中 | 构图 | | 人物姿态(站/跪/侧/背) | cluster_1 | 高 | 姿态 | --- ## 筛选的多模态维度(共8个) ### 维度1:人体姿态骨骼图(pose_skeleton) - **对应实质**: 女性人物(段落X.1.1系列) - **对应形式**: 人物姿态(cluster_1) - **表示形式**: PNG图像(骨骼关键点连线图) - **提取工具**: MediaPipe Pose(33关键点) - **可逆性**: 高 - 骨骼图直接作为ControlNet OpenPose的输入 - **生成模型友好性**: 极高 - ControlNet标准输入格式 - **泛化价值**: 高 - 骨骼姿态可复用于不同服装/场景/风格 - **还原中的作用**: 控制人物的站立/跪姿/侧身/背影等姿态,保证多图一致性 - **必要性**: 图片组中人物姿态多样(站立、跪姿、侧身),是最核心的控制维度 ### 维度2:全局色彩调色板(color_palette) - **对应实质**: 整体图像(图像级形式) - **对应形式**: 白绿配色(cluster_3) - **表示形式**: JSON(主色调列表,含HSL值和比例)+ PNG色块可视化 - **提取工具**: scikit-learn KMeans聚类(K=6) - **可逆性**: 高 - 色彩调色板可直接作为ControlNet t2iaColor的输入 - **生成模型友好性**: 高 - 可转化为Prompt色彩描述或T2I-Adapter颜色控制 - **泛化价值**: 高 - 白绿配色是可复用的视觉风格基因 - **还原中的作用**: 控制整体色调,确保白裙+绿背景的清新配色一致性 - **必要性**: cluster_3是高权重亮点,白绿配色是图片组的核心视觉特征 ### 维度3:颜料质感色彩图(palette_texture_colors) - **对应实质**: 绘画工具(调色板上的颜料,段落X.1.3系列) - **对应形式**: 斑斓厚重的油画颜料(cluster_2_texture) - **表示形式**: JSON(颜料色块列表,含颜色和位置分布)+ PNG可视化 - **提取工具**: KMeans聚类 + 区域分析 - **可逆性**: 高 - 颜料色彩可作为局部色彩控制信号 - **生成模型友好性**: 高 - 可描述为"impasto oil paint palette with vivid colors" - **泛化价值**: 高 - 颜料色彩组合可复用于其他艺术创作场景 - **还原中的作用**: 控制调色板上颜料的色彩丰富度和分布,营造真实的艺术创作感 - **必要性**: cluster_2_texture是独立亮点聚类,颜料质感是图片的核心视觉反差元素 ### 维度4:人物外观语义描述(person_appearance) - **对应实质**: 女性人物(段落X.1系列) - **对应形式**: 服装(白裙)、发型(棕色长发)、配饰(耳饰/项链/手镯) - **表示形式**: JSON(结构化外观描述) - **提取工具**: VLM(视觉语言模型,如Gemini) - **可逆性**: 高 - 自然语言描述直接作为Prompt输入 - **生成模型友好性**: 极高 - 最直接的生成控制信号 - **泛化价值**: 高 - 外观描述可复用于生成同一人物的不同场景 - **还原中的作用**: 控制人物的服装颜色、发型、配饰等外观特征,保证跨图一致性 - **必要性**: 白裙是cluster_1的核心特征,人物外观一致性是图片组的基本要求 ### 维度5:场景构图描述(composition_layout) - **对应实质**: 整体场景(图像级) - **对应形式**: 构图引导(cluster_6)、景别、拍摄角度 - **表示形式**: JSON(构图参数:主体位置比例、景别类型、拍摄角度、视线引导方向) - **提取工具**: VLM分析 + 规则提取 - **可逆性**: 中高 - 构图参数可转化为Prompt的构图描述 - **生成模型友好性**: 高 - 构图描述是Prompt的重要组成部分 - **泛化价值**: 高 - 过肩视角、视线引导等构图规律可复用于新内容创作 - **还原中的作用**: 控制人物与画架的相对位置、拍摄角度、景别,保证构图一致性 - **必要性**: 9张图片构图各异(背影/侧身/特写/远景),构图是区分各图的关键维度 ### 维度6:光影氛围描述(lighting_atmosphere) - **对应实质**: 整体图像(图像级形式) - **对应形式**: 逆光/散景/梦幻光影(cluster_4) - **表示形式**: JSON(光照类型、方向、散景程度、整体氛围) - **提取工具**: VLM分析 - **可逆性**: 高 - 光影描述可直接作为Prompt的光照控制词 - **生成模型友好性**: 极高 - "backlight, bokeh, dreamy atmosphere"等词汇是生成模型标准控制词 - **泛化价值**: 高 - 逆光散景是可复用的摄影风格基因 - **还原中的作用**: 控制光照方向(逆光/侧光)、背景虚化程度、整体氛围(梦幻/清新) - **必要性**: cluster_4是高权重亮点,光影是图片组的核心氛围特征 ### 维度7:背景环境色彩(background_color) - **对应实质**: 自然背景(段落X.3系列) - **对应形式**: 清新雅致的白绿配色(cluster_3的背景部分) - **表示形式**: JSON(背景主色调HSL值、饱和度、亮度范围) - **提取工具**: KMeans聚类(仅背景区域) - **可逆性**: 高 - 背景色彩可作为独立的色彩控制信号 - **生成模型友好性**: 高 - 可转化为"lush green grass, natural outdoor background"等描述 - **泛化价值**: 高 - 绿色自然背景是可复用的场景基因 - **还原中的作用**: 控制背景的绿色调性,与白裙形成对比,营造清新户外感 - **必要性**: 背景色彩是cluster_3的重要组成,与人物白裙的对比是核心视觉亮点 ### 维度8:画中画内容描述(painting_content) - **对应实质**: 画架与油画(段落X.2.1系列) - **对应形式**: 画中画结构(cluster_5) - **表示形式**: JSON(画布内容描述、与现实场景的对应关系) - **提取工具**: VLM分析 - **可逆性**: 高 - 内容描述可直接作为Prompt输入 - **生成模型友好性**: 高 - "painting within painting, canvas showing..."等描述 - **泛化价值**: 中 - 画中画结构是独特的叙事形式,可复用于艺术创作场景 - **还原中的作用**: 控制画布上的内容,实现现实与艺术的"镜像"呼应关系 - **必要性**: cluster_5是独立亮点聚类,画中画是图片组的独特叙事亮点 --- ## 排除的维度及原因 | 排除维度 | 排除原因 | |----------|----------| | 深度图(Depth Map) | 与原图过于相似,缺乏泛化价值;且本图组景深效果已通过光影描述覆盖 | | 边缘检测图(Canny/Lineart) | 与原图过于相似,为了还原而还原,缺乏创造性价值 | | 语义分割图(Segmentation) | 信息量过大,与原图相似度高;已通过其他维度覆盖各区域特征 | | 面部特征(Face Embedding) | 图片组以背影为主,面部信息有限;且面部特征过于具体,泛化性差 | | 画面比例(Aspect Ratio) | 所有图片均为1080×1439(约3:4),固定值,无需单独提取 |