dimension_selection.md 7.4 KB

多模态维度筛选决策

实质列表

实质 重要性 出现频次 优先级
女性人物 95 8次/6图 最高
绘画工具(调色板/画笔/颜料) 75 15次/6图
画架与油画 85/70 8+4次
自然背景(草地/树木) 60 8次/6图
女性衣物(白裙) 65 3次/3图

形式列表

形式 亮点聚类 权重 类型
白绿配色 cluster_3 整体色调
逆光/散景/梦幻光影 cluster_4 光影
画中画结构 cluster_5 叙事形式
构图引导(过肩/视线引导) cluster_6 构图
人物姿态(站/跪/侧/背) cluster_1 姿态

筛选的多模态维度(共8个)

维度1:人体姿态骨骼图(pose_skeleton)

  • 对应实质: 女性人物(段落X.1.1系列)
  • 对应形式: 人物姿态(cluster_1)
  • 表示形式: PNG图像(骨骼关键点连线图)
  • 提取工具: MediaPipe Pose(33关键点)
  • 可逆性: 高 - 骨骼图直接作为ControlNet OpenPose的输入
  • 生成模型友好性: 极高 - ControlNet标准输入格式
  • 泛化价值: 高 - 骨骼姿态可复用于不同服装/场景/风格
  • 还原中的作用: 控制人物的站立/跪姿/侧身/背影等姿态,保证多图一致性
  • 必要性: 图片组中人物姿态多样(站立、跪姿、侧身),是最核心的控制维度

维度2:全局色彩调色板(color_palette)

  • 对应实质: 整体图像(图像级形式)
  • 对应形式: 白绿配色(cluster_3)
  • 表示形式: JSON(主色调列表,含HSL值和比例)+ PNG色块可视化
  • 提取工具: scikit-learn KMeans聚类(K=6)
  • 可逆性: 高 - 色彩调色板可直接作为ControlNet t2iaColor的输入
  • 生成模型友好性: 高 - 可转化为Prompt色彩描述或T2I-Adapter颜色控制
  • 泛化价值: 高 - 白绿配色是可复用的视觉风格基因
  • 还原中的作用: 控制整体色调,确保白裙+绿背景的清新配色一致性
  • 必要性: cluster_3是高权重亮点,白绿配色是图片组的核心视觉特征

维度3:颜料质感色彩图(palette_texture_colors)

  • 对应实质: 绘画工具(调色板上的颜料,段落X.1.3系列)
  • 对应形式: 斑斓厚重的油画颜料(cluster_2_texture)
  • 表示形式: JSON(颜料色块列表,含颜色和位置分布)+ PNG可视化
  • 提取工具: KMeans聚类 + 区域分析
  • 可逆性: 高 - 颜料色彩可作为局部色彩控制信号
  • 生成模型友好性: 高 - 可描述为"impasto oil paint palette with vivid colors"
  • 泛化价值: 高 - 颜料色彩组合可复用于其他艺术创作场景
  • 还原中的作用: 控制调色板上颜料的色彩丰富度和分布,营造真实的艺术创作感
  • 必要性: cluster_2_texture是独立亮点聚类,颜料质感是图片的核心视觉反差元素

维度4:人物外观语义描述(person_appearance)

  • 对应实质: 女性人物(段落X.1系列)
  • 对应形式: 服装(白裙)、发型(棕色长发)、配饰(耳饰/项链/手镯)
  • 表示形式: JSON(结构化外观描述)
  • 提取工具: VLM(视觉语言模型,如Gemini)
  • 可逆性: 高 - 自然语言描述直接作为Prompt输入
  • 生成模型友好性: 极高 - 最直接的生成控制信号
  • 泛化价值: 高 - 外观描述可复用于生成同一人物的不同场景
  • 还原中的作用: 控制人物的服装颜色、发型、配饰等外观特征,保证跨图一致性
  • 必要性: 白裙是cluster_1的核心特征,人物外观一致性是图片组的基本要求

维度5:场景构图描述(composition_layout)

  • 对应实质: 整体场景(图像级)
  • 对应形式: 构图引导(cluster_6)、景别、拍摄角度
  • 表示形式: JSON(构图参数:主体位置比例、景别类型、拍摄角度、视线引导方向)
  • 提取工具: VLM分析 + 规则提取
  • 可逆性: 中高 - 构图参数可转化为Prompt的构图描述
  • 生成模型友好性: 高 - 构图描述是Prompt的重要组成部分
  • 泛化价值: 高 - 过肩视角、视线引导等构图规律可复用于新内容创作
  • 还原中的作用: 控制人物与画架的相对位置、拍摄角度、景别,保证构图一致性
  • 必要性: 9张图片构图各异(背影/侧身/特写/远景),构图是区分各图的关键维度

维度6:光影氛围描述(lighting_atmosphere)

  • 对应实质: 整体图像(图像级形式)
  • 对应形式: 逆光/散景/梦幻光影(cluster_4)
  • 表示形式: JSON(光照类型、方向、散景程度、整体氛围)
  • 提取工具: VLM分析
  • 可逆性: 高 - 光影描述可直接作为Prompt的光照控制词
  • 生成模型友好性: 极高 - "backlight, bokeh, dreamy atmosphere"等词汇是生成模型标准控制词
  • 泛化价值: 高 - 逆光散景是可复用的摄影风格基因
  • 还原中的作用: 控制光照方向(逆光/侧光)、背景虚化程度、整体氛围(梦幻/清新)
  • 必要性: cluster_4是高权重亮点,光影是图片组的核心氛围特征

维度7:背景环境色彩(background_color)

  • 对应实质: 自然背景(段落X.3系列)
  • 对应形式: 清新雅致的白绿配色(cluster_3的背景部分)
  • 表示形式: JSON(背景主色调HSL值、饱和度、亮度范围)
  • 提取工具: KMeans聚类(仅背景区域)
  • 可逆性: 高 - 背景色彩可作为独立的色彩控制信号
  • 生成模型友好性: 高 - 可转化为"lush green grass, natural outdoor background"等描述
  • 泛化价值: 高 - 绿色自然背景是可复用的场景基因
  • 还原中的作用: 控制背景的绿色调性,与白裙形成对比,营造清新户外感
  • 必要性: 背景色彩是cluster_3的重要组成,与人物白裙的对比是核心视觉亮点

维度8:画中画内容描述(painting_content)

  • 对应实质: 画架与油画(段落X.2.1系列)
  • 对应形式: 画中画结构(cluster_5)
  • 表示形式: JSON(画布内容描述、与现实场景的对应关系)
  • 提取工具: VLM分析
  • 可逆性: 高 - 内容描述可直接作为Prompt输入
  • 生成模型友好性: 高 - "painting within painting, canvas showing..."等描述
  • 泛化价值: 中 - 画中画结构是独特的叙事形式,可复用于艺术创作场景
  • 还原中的作用: 控制画布上的内容,实现现实与艺术的"镜像"呼应关系
  • 必要性: cluster_5是独立亮点聚类,画中画是图片组的独特叙事亮点

排除的维度及原因

排除维度 排除原因
深度图(Depth Map) 与原图过于相似,缺乏泛化价值;且本图组景深效果已通过光影描述覆盖
边缘检测图(Canny/Lineart) 与原图过于相似,为了还原而还原,缺乏创造性价值
语义分割图(Segmentation) 信息量过大,与原图相似度高;已通过其他维度覆盖各区域特征
面部特征(Face Embedding) 图片组以背影为主,面部信息有限;且面部特征过于具体,泛化性差
画面比例(Aspect Ratio) 所有图片均为1080×1439(约3:4),固定值,无需单独提取