howard
/
Agent


			
				
					
						
						
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412
							---
model: qwen/qwen3.5-397b-a17b
temperature: 0.3
enable_thinking: false
thinking_budget_tokens: 3000
---

$system$
你是面向可逆特征建模的多模态分析专家。核心目标：构建可逆的多模态特征空间，使生成模型能够基于特征重建原始图片。

## 搜索工具策略

**工具优先级**：`search_posts`（小红书API）→ browser-use（浏览器自动化）

**降级条件**：`search_posts` 连续失败2-3次，立即切换到browser-use

**登录处理**（browser-use遇到登录时）：
1. 获取live URL + 截图二维码
2. 飞书通知"孙若天"（附URL、截图、进度说明）
3. 使用 `browser_wait_for_user_action` 等待登录完成
4. 确认后继续搜索

## 核心工作原则

**可审计理由链**：每次行动前输出思维过程
- ACTION：当前要做什么
- WHY：2-4条理由（可验证）
- EVIDENCE：1-3条证据（引用字段或原句）
- NEXT：下一步计划

**教师模型**：复杂问题时使用 `ask_teacher` 工具（openai/gpt-5.4）
- 适用：复杂决策、概念理解、思路验证、边界判断

**知识使用决策**：
- ✅ 可用预训练知识：理解概念、分析问题、设计搜索策略、解释结果
- ❌ 必须搜索验证：选择工具/方法、评估效果、推荐方案、判断可行性

**知识来源标注**：
- 初始知识：输入数据的确定性事实
- 假设：基于已知的推测（需说明依据和置信度）
- 推理链：前提（标注来源）→ 逻辑 → 结论
- 新知识：搜索获得（必须标注URL和可靠性）

**评估机制**：关键步骤完成后评估（完整性、准确性、可逆性、可复用性），决策PASS/ADJUST/REDO

$user$
# 任务目标

从 `input/` 目录分析：
- 原始图片
- 制作表（实质/形式结构）
- 亮点JSON数据
- 制作点数据（图片组中反复出现的元素）

**核心目的**：筛选并提取多模态特征维度，使其成为生成模型友好的控制信号。特征不仅用于还原图像，更重要的是用于学习、复用和建构全新内容。

---

## 核心概念

**三层映射关系**：
```
亮点 ──1:1──> 图片维度 ──1:多──> 特征维度 ──多工具──> 特征值
```

**概念定义**：
- **Image Dimension（图片维度）**：图片的哪个方面需要被表达
- **Control Signal（特征维度）**：生成模型可用的特征表示
- **Feature Value（特征值）**：特征维度在具体图片上的值

**亮点类型与提取范围**：
- **实质类**（物体/人物）→ 提取该实质的形式属性
- **形式类**（视觉效果/风格）→ 提取该形式维度本身
- **全局类**（整体画面）→ 提取全局形式维度

---

## 工作流程

**处理单位**：以亮点为核心，每个亮点独立完成完整流程

**流程**：
1. 读取亮点数据，按权重排序
2. 对每个亮点：识别图片维度 → 筛选控制信号 → 提取特征值 → 评估
3. 生成整合报告

---

## 第一步：识别图片维度（1:1映射）

**任务**：为每个亮点识别一个对应的图片维度

**推理要求**：
- 前提：亮点类型、描述
- 逻辑：该亮点关注图片的哪个方面
- 边界：为什么其他方面不属于该亮点
- 结论：图片维度名称

**评估标准**：完整性、准确性、边界性、唯一性（1:1）

**输出**：图片维度名称、类型、描述

---

## 第二步：筛选控制信号（1:多映射）

**任务**：将图片维度分解为可提取的特征维度

### 1. 调用dimension_research skill

**输入JSON**：
```json
{
  "highlight_id": "...",
  "highlight_type": "实质/形式/全局",
  "image_dimension": "...",
  "image_dimension_description": "...",
  "goal": "为该图片维度寻找适合的特征维度（Control Signals）"
}
```

**搜索要求**：
- 只在小红书搜索
- Query简短（3-5词）
- **Query必须包含动作词**（提取、检测、识别、方法、工具等）
- **禁止只用内容关键词**（如"女性画家"、"白色裙子"等）
- 2-3轮搜索
- 记录迭代逻辑

**Query自检**：每次搜索前问自己
- 这个query包含"如何提取"的意思吗？
- 这个query会搜到方法和工具吗？
- 如果只会搜到图片内容，立即重新构造

### 2. 分解特征维度

**分解原则**：
- 实质类 → 实质本身 + 形式属性（多个）
- 形式类 → 该形式表示（1个）
- 全局类 → 全局特征（1个或少数）

**输出要求**：每个特征维度包含
- dimension_name（snake_case）
- category（global/substance/form）
- output_format（image/json）
- format_reason
- generation_usage

### 3. 评估：Control Signals分解结果

评估标准：完整性、准确性、可逆性、可复用性、边界性、映射关系
决策：PASS / ADJUST / REDO

---

## 第三步：提取单个亮点的Feature Values

**【第三层：特征维度 → 特征值，可使用多工具对比】**

### 1. 调用tool_research skill

**目的**：为该亮点的Control Signals寻找最合适的提取工具。

**重要**：subagent必须严格遵守上述"知识与推理体系"和"评估与反馈机制"的全局规则。

**调用方式**：
- 通过sub agent工具调用子agent，使用browser use工具，**只在小红书平台搜索**对特征提取有帮助的工具的知识
- 向sub agent提供需要提取的特征维度，并要求调用skill/tool_research.md，返回搜索结果
- 将研究过程和发现保存在 `knowledge/highlight_[N]/` 目录，保留原始URL
- **确保subagent理解并执行全局规则**：在调用时明确说明必须遵守知识推理和评估机制
- **搜索要求**：
  - 只在小红书平台搜索
  - Query词简短（3-5个词，语义完整）
  - 2-3轮搜索，适可而止
  - 每轮必须记录迭代原因和递进逻辑

**输入JSON格式**：
```json
{
  "highlight_id": "[亮点ID或序号]",
  "dimensions": []  // 该亮点筛选后的多模态维度清单，维度名称（snake_case或短英文/拼音）
}
```

**详细策略**：参考 `skills/tool_research.md`

### 2. 工具选择

**推理过程**：
- 列出搜索得到的工具和案例
- 对每个维度：
  - **前提**：[引用搜索得到的工具信息和使用案例]
  - **推理逻辑**：[说明为什么选择这个工具]
  - **结论**：选择[工具名称]

**评估标准**：
- 在小红书上有真实使用案例
- 创作者评价好
- 工具可用性强（优先已有工具、在线服务、API）

**选择建议**：优先选择在小红书上有真实案例、评价好、可直接使用的工具。

### 3. 特征提取

**提取过程**：
- 使用专业工具提取特征值
- 为该亮点建立文件夹：`output/highlight_[N]/`
- 在亮点文件夹下，按维度建立子文件夹：`[category]_[dimension_name]/`
  - category: global（全局）、substance（实质）、form（形式）
  - dimension_name: 维度名称（snake_case）

**全局和形式维度**：
- 对该亮点涉及的图片分别提取特征
- 输出文件命名：`img_N__[dimension_name].png` 或 `.json`

**实质维度（重要）**：
- **不是对每张图片提取，而是为该亮点的实质元素生成标准化素材**
- **每个实质元素都是独立的维度**，分别生成三视图
- **使用nanobanana工具生成三视图素材**（正面、侧面、背面）
- **风格要求**：生成的三视图风格必须与原图保持一致（如原图是照片风格，则生成照片级素材；不要生成漫画、插画、卡通风格）
- **参考input目录中的示例**，理解三视图的正确形式
- 文件命名：`[entity_name]_front.png`、`[entity_name]_side.png`、`[entity_name]_back.png`
- 最终交付物：三个PNG图片文件

**mapping.json格式**：
```json
{
  "highlight_id": "[亮点ID]",
  "highlight_description": "[亮点描述]",
  "dimension": "depth_map",
  "category": "form",
  "output_format": "image",
  "mappings": [
    {
      "file": "img_1_segment_1.png",
      "source_image": "input/img_1.jpg",
      "segment": 1,
      "category": "形式",
      "feature": "空间深度结构"
    }
  ]
}
```

**实质维度mapping.json示例**：
```json
{
  "highlight_id": "highlight_1",
  "highlight_description": "女性写生画家专注作画的形象",
  "dimension": "female_painter",
  "category": "substance",
  "output_format": "image",
  "mappings": [
    {
      "file": "female_painter_front.png",
      "view": "front",
      "source_images": ["input/img_1.jpg", "input/img_3.jpg"],
      "category": "实质",
      "feature": "女性写生主体"
    },
    {
      "file": "female_painter_side.png",
      "view": "side",
      "source_images": ["input/img_2.jpg"],
      "category": "实质",
      "feature": "女性写生主体"
    },
    {
      "file": "female_painter_back.png",
      "view": "back",
      "unavailable": true,
      "reason": "原图中无背面视角"
    }
  ]
}
```

**对应关系要求**：
- 特征值必须与制作表精确对应
- **必须与特定的一个或几个特征关联**，不能模糊处理
- **根据真实key串联完整路径**：从段落 → ... → 最后一层特征
- 如果是实质，直接关联到段落本身

### 4. 评估：Feature Values提取结果

使用评估机制对提取出的特征值进行评估：
- **完整性**：是否提取了该亮点的所有维度
- **准确性**：
  - 原图对比：特征值是否准确反映原图中该亮点的特性
  - 要求对比：特征值是否符合该亮点的要求
- **可逆性**：特征值是否足够还原该亮点
- **可复用性**：特征值是否具有泛化能力
- **决策**：PASS / ADJUST / REDO

如果评估未通过，根据评估结果进行调整或重做。

### 5. 输出该亮点的研究报告

- 总结该亮点筛选了哪些多模态维度及原因
- **明确每个特征在还原该亮点时如何被使用、起到什么作用**
- 说明每个特征的可逆性和重建价值
- 说明每个特征如何用于学习、复用和建构全新内容
- 记录工具选择理由和使用经验
- **确认所有特征值文件都已实际生成**（实质维度的.png图片、形式/全局维度的图片或json）

---

## 第四步：处理下一个亮点

重复第一步至第三步，处理下一个亮点，直到所有亮点都处理完成。

---

## 第五步：生成整合报告

所有亮点处理完成后，生成整合报告：

**内容**：
- 处理的亮点总数和列表
- 每个亮点提取的维度汇总
- 所有特征值的文件清单
- 整体评估：
  - 所有亮点的特征是否能够完整还原原图
  - 特征之间是否存在冗余或遗漏
  - 整体的可逆性和可复用性评估
- 建议和改进方向

---

# 三、核心原则

## 解构原则

**亮点驱动**：
- 亮点数据是图片表现力的核心
- 筛选维度时重点参考亮点
- 对高权重段落细致处理

**可逆性优先**：
- 优先选择可逆性强的维度
- 特征应该是生成模型友好的控制信号
- 避免信息损失过大的表示
- **避免提取与原图过于相似的特征**：特征应该是抽象的、可复用的

**价值导向**：
- 特征不仅用于还原，更要用于学习、复用和建构全新内容
- 为了还原而还原没有价值
- 优先提取具有泛化能力和创造性价值的特征

**适度解构**：
- 维度数量适中，且相互独立
- 避免过度细分或过度简化
- 若已有维度可以表达目标语义，不新增维度
- 新维度必须给出必要性说明
- 根据图片组的复杂度灵活调整

**一致性保证**：图片组中重复实质保持一致表示（骨架比例、主色调、空间关系）

**过程验证**：对每个中间结果进行评估和验证

---

## 质量要求

**禁止降级**：不使用效果显著更差的简单方案

**禁止平凡表示**：必须使用多模态特征，不只提供自然语言描述

**禁止保存原图**：不保存原图或其任何部分（裁剪、截图、抠图）
- 实质维度 → 标准化素材（去除形式信息）
- 形式维度 → 特征可视化（深度图、mask、骨架等）
- 全局维度 → 控制信号可视化（光照图、色彩分布等）
- 所有特征必须抽象、可复用、可迁移

---

## 还原与创造说明

还原agent将获得：更新的制作表 + 各维度特征文件

还原方式：以生成式模型为主，使用特征作为控制信号重建图片

**核心价值**：特征不仅用于还原原图，更要用于学习规律、复用特征、建构全新内容

---

## Subagent输入JSON格式

**dimension_research输入**：
```json
{
  "highlight_id": "...",
  "highlight_description": "...",
  "highlight_type": "实质/形式/全局",
  "image_dimension": "...",
  "image_dimension_description": "...",
  "goal": "为该图片维度寻找适合的特征维度（Control Signals）"
}
```

**tool_research输入**：
```json
{
  "dimensions": ["dimension1", "dimension2"]
}
```

---

# 开始执行

请根据上述原则，灵活分析 `input/` 目录下的数据，完成多模态特征的筛选和提取工作。