dimension_research.md 6.5 KB

Skill: dimension_research

⚠️ 关键规则(必须首先阅读)

在构造任何query前,必须通过以下检查:

  1. Query中是否包含动作词?

    • 必须包含:提取、检测、识别、分析、获取、生成、控制等
    • 如果没有动作词,这个query是错误的
  2. Query是否在搜索"如何做"而不是"是什么"?

    • ✅ 正确:姿态提取方法、深度图生成工具
    • ❌ 错误:女性画家、户外写生、白色裙子
  3. Query是否会搜到技术内容?

    • ✅ 正确:会搜到教程、工具、方法
    • ❌ 错误:会搜到图片、作品、内容

示例对比

错误Query(只有内容) 正确Query(包含方法)
❌ 女性画家 背影 ✅ 人物姿态 提取方法
❌ 户外写生 空间 ✅ 深度图 生成工具
❌ 白色裙子 ✅ 服装分割 检测方法
❌ 画架 画板 ✅ 物体识别 提取工具

强制自检流程

构造query → 检查是否包含动作词 → 检查是否搜索方法 → 确认后搜索
           ↓ 没有动作词                ↓ 只搜内容
           重新构造                    重新构造

目标

Image Dimensions(图片维度)提炼适合的Control Signals(控制信号/特征维度)

核心目的:选择的特征维度将用于生成式AI模型还原图片

关键原则

  • 特征维度必须是生成模型可消费的控制信号(生成模型包括但不限于stable diffusion、nano banana等模型)
  • 根据图片维度的特点,选择能够有效控制生成过程的特征维度
  • 优先选择在AI图像生成领域已被验证有效的控制方式

搜索重点

  • 寻找创作者如何使用特定特征维度来控制AI生成图片
  • 关注特征维度在生成模型中的实际应用案例
  • 了解特征维度如何影响生成结果的视觉效果

注意:本skill只负责 Image Dimension → Control Signal,不负责寻找工具或提取Feature Value。


输入格式

{
  "highlight_id": "[亮点ID](可选)",
  "highlight_description": "[亮点描述](可选)",
  "highlight_type": "[实质/形式/全局]",
  "image_dimension": "[图片维度名称]",
  "image_dimension_description": "[图片维度描述]",
  "goal": "为该图片维度寻找适合的特征维度(Control Signals)"
}

输出格式

文件knowledge/dimension_research_result.json

{
  "image_dimension": "pose",
  "control_signals": [
    {
      "name": "openpose_skeleton",
      "category": "form",
      "output_format": "image",
      "format_reason": "骨架图是标准的ControlNet输入格式",
      "generation_usage": "作为ControlNet的pose控制信号",
      "search_evidence": ["URL1", "URL2"],
      "reasoning": "为什么选择这个控制信号"
    }
  ]
}

输出格式说明

  • image:特征可视化(深度图、mask、骨架图等)或标准化素材
  • json:参数/数值特征(比例、坐标、权重等)

常见维度参考

  • 构图/布局/光照/深度/姿态 → image
  • 色彩 → image或json
  • 标签/分类/参数 → json

工作流程

0. 初始假设

⚠️ 搜索前必须先给出假设:基于自身知识,列出可能的控制信号和理由

格式:假设:[信号1/2/3] | 理由:[知识来源] | 待验证:[具体问题]

报告中必须对比初始假设和最终结果

1. Query构造(关键)

⚠️ 搜索目的:寻找"如何提取特征"的方法,而不是寻找类似的图片内容

Query公式:[特征类型] + [提取动作] + [信息类型]

严格禁止

  • ❌ 直接使用亮点描述作为搜索词
  • ❌ 只搜索内容关键词
  • ❌ 缺少"提取"、"检测"、"识别"等动作词

自检问题

  • 这个query是在搜索"如何提取特征"吗?
  • 这个query包含提取动作词了吗?
  • 这个query会搜到提取方法和工具吗?

Query要求

  • 简短(3-5词)
  • 语义完整
  • 包含提取意图

搜索平台:只在小红书搜索,使用中文

2. 搜索迭代

⚠️ 每轮必须说明:为什么搜索、基于什么发现

第一轮(验证假设)

  • Query:[假设的控制信号] + [提取动作] + [信息类型]
  • 记录:query、迭代理由(验证哪个假设)、发现、与假设对比

第二轮(基于发现深入)

  • Query:[第一轮术语/工具] + [使用/应用] + [教程/案例]
  • 记录:query、迭代理由(基于第一轮的什么发现)、具体案例、对假设的修正

第三轮(可选)

  • Query:[工具/方法] + [效果/参数] + [评测/设置]
  • 记录:query、迭代理由、验证结果

停止条件:找到3-5个案例 / 能清晰描述使用方法 / 结果重复 / 完成2-3轮 / 假设已验证

3. 维度边界控制

根据highlight_type严格限制提取范围:

实质类亮点

  • ✅ 提取:该实质本身 + 该实质的形式属性
  • ❌ 禁止:全局形式、其他实质

形式类亮点

  • ✅ 提取:该形式维度本身
  • ❌ 禁止:具体实质、其他形式维度

全局类亮点

  • ✅ 提取:全局形式维度
  • ❌ 禁止:具体实质

4. 分析搜索结果

从搜索结果中提取:

  • 创作者使用的控制信号类型
  • 控制信号在生成中的作用
  • 控制信号的输出格式(image/json)
  • 实际应用案例和效果

5. 提炼控制信号

分解原则

  • 实质类 → 实质本身 + 形式属性(多个)
  • 形式类 → 该形式表示(1个)
  • 全局类 → 全局特征(1个或少数)

推理要求

  • 列出搜索得到的知识
  • 说明为什么需要这些特征维度
  • 边界检查(只服务于当前图片维度)
  • 得出特征维度列表

6. 输出结果

每个控制信号必须包含:

  • name(snake_case)
  • category(global/substance/form)
  • output_format(image/json)
  • format_reason(选择该格式的理由)
  • generation_usage(在还原时如何使用)
  • search_evidence(支持的URL)
  • reasoning(选择理由,基于搜索案例)

报告必须包含:初始假设 | 迭代过程(每轮理由和发现)| 假设对比 | 最终结论

禁止:凭空想象 / 无案例支持 / 理论推测 / 超出亮点边界 / 缺少迭代理由和假设对比


停止条件

当搜索结果能够解释以下问题时停止:

  • 为什么这种效果成立
  • 如何实现
  • 哪些因素控制