dimension_research.md 6.2 KB

Skill: dimension_research

⚠️ 关键规则(必须首先阅读)

在构造任何query前,必须通过以下检查:

  1. Query中是否包含动作词?

    • 必须包含:提取、检测、识别、分析、获取、生成、控制等
    • 如果没有动作词,这个query是错误的
  2. Query是否在搜索"如何做"而不是"是什么"?

    • ✅ 正确:姿态提取方法、深度图生成工具
    • ❌ 错误:女性画家、户外写生、白色裙子
  3. Query是否会搜到技术内容?

    • ✅ 正确:会搜到教程、工具、方法
    • ❌ 错误:会搜到图片、作品、内容

示例对比

错误Query(只有内容) 正确Query(包含方法)
❌ 女性画家 背影 ✅ 人物姿态 提取方法
❌ 户外写生 空间 ✅ 深度图 生成工具
❌ 白色裙子 ✅ 服装分割 检测方法
❌ 画架 画板 ✅ 物体识别 提取工具

强制自检流程

构造query → 检查是否包含动作词 → 检查是否搜索方法 → 确认后搜索
           ↓ 没有动作词                ↓ 只搜内容
           重新构造                    重新构造

目标

Image Dimensions(图片维度)提炼适合的Control Signals(控制信号/特征维度)

核心目的:选择的特征维度将用于生成式AI模型还原图片

关键原则

  • 特征维度必须是生成模型可消费的控制信号(生成模型包括但不限于stable diffusion、nano banana等模型)
  • 根据图片维度的特点,选择能够有效控制生成过程的特征维度
  • 优先选择在AI图像生成领域已被验证有效的控制方式

搜索重点

  • 寻找创作者如何使用特定特征维度来控制AI生成图片
  • 关注特征维度在生成模型中的实际应用案例
  • 了解特征维度如何影响生成结果的视觉效果

注意:本skill只负责 Image Dimension → Control Signal,不负责寻找工具或提取Feature Value。


输入格式

{
  "highlight_id": "[亮点ID](可选)",
  "highlight_description": "[亮点描述](可选)",
  "highlight_type": "[实质/形式/全局]",
  "image_dimension": "[图片维度名称]",
  "image_dimension_description": "[图片维度描述]",
  "goal": "为该图片维度寻找适合的特征维度(Control Signals)"
}

输出格式

文件knowledge/dimension_research_result.json

{
  "image_dimension": "pose",
  "control_signals": [
    {
      "name": "openpose_skeleton",
      "category": "form",
      "output_format": "image",
      "format_reason": "骨架图是标准的ControlNet输入格式",
      "generation_usage": "作为ControlNet的pose控制信号",
      "search_evidence": ["URL1", "URL2"],
      "reasoning": "为什么选择这个控制信号"
    }
  ]
}

输出格式说明

  • image:特征可视化(深度图、mask、骨架图等)或标准化素材
  • json:参数/数值特征(比例、坐标、权重等)

常见维度参考

  • 构图/布局/光照/深度/姿态 → image
  • 色彩 → image或json
  • 标签/分类/参数 → json

工作流程

1. Query构造(关键)

⚠️ 搜索目的:寻找"如何提取特征"的方法,而不是寻找类似的图片内容

Query公式:[特征类型] + [提取动作] + [信息类型]

严格禁止

  • ❌ 直接使用亮点描述作为搜索词
  • ❌ 只搜索内容关键词
  • ❌ 缺少"提取"、"检测"、"识别"等动作词

自检问题

  • 这个query是在搜索"如何提取特征"吗?
  • 这个query包含提取动作词了吗?
  • 这个query会搜到提取方法和工具吗?

Query要求

  • 简短(3-5词)
  • 语义完整
  • 包含提取意图

搜索平台:只在小红书搜索,使用中文

2. 搜索迭代

第一轮(宽泛探索)

  • 目标:了解大方向,发现关键概念
  • Query:[特征类型] + [提取动作] + [信息类型]
  • 记录:query词、关键信息、专业术语

第二轮(聚焦细化)

  • 目标:基于第一轮发现,聚焦具体方法
  • Query:[第一轮术语/工具] + [使用/应用] + [教程/案例]
  • 记录:query词、选择理由、具体案例

第三轮(可选,验证补充)

  • 目标:验证细节或补充信息
  • Query:[工具/方法] + [效果/参数] + [评测/设置]

停止条件(满足任一即停止):

  • 找到3-5个真实案例支持某个Control Signal
  • 能够清晰描述该Control Signal的使用方法
  • 搜索结果开始重复
  • 已完成2-3轮搜索

3. 维度边界控制

根据highlight_type严格限制提取范围:

实质类亮点

  • ✅ 提取:该实质本身 + 该实质的形式属性
  • ❌ 禁止:全局形式、其他实质

形式类亮点

  • ✅ 提取:该形式维度本身
  • ❌ 禁止:具体实质、其他形式维度

全局类亮点

  • ✅ 提取:全局形式维度
  • ❌ 禁止:具体实质

4. 分析搜索结果

从搜索结果中提取:

  • 创作者使用的控制信号类型
  • 控制信号在生成中的作用
  • 控制信号的输出格式(image/json)
  • 实际应用案例和效果

5. 提炼控制信号

分解原则

  • 实质类 → 实质本身 + 形式属性(多个)
  • 形式类 → 该形式表示(1个)
  • 全局类 → 全局特征(1个或少数)

推理要求

  • 列出搜索得到的知识
  • 说明为什么需要这些特征维度
  • 边界检查(只服务于当前图片维度)
  • 得出特征维度列表

6. 输出结果

每个控制信号必须包含:

  • name(snake_case)
  • category(global/substance/form)
  • output_format(image/json)
  • format_reason(选择该格式的理由)
  • generation_usage(在还原时如何使用)
  • search_evidence(支持的URL)
  • reasoning(选择理由,基于搜索案例)

禁止

  • 凭空想象Control Signal
  • 没有案例支持的决策
  • 理论推测而非实践经验
  • 选择不属于当前亮点的维度

停止条件

当搜索结果能够解释以下问题时停止:

  • 为什么这种效果成立
  • 如何实现
  • 哪些因素控制