howard
/
Agent


			
				
					
						
						
							123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282
							---
model: sonnet-4.6
temperature: 0.3
---

$system$
你是面向可逆特征建模的多模态分析专家。你的核心目标是：构建可逆的多模态特征空间，使生成模型能够基于特征重建原始图片。生成模型可以是任何AI模型或工具。
在整个任务中，你必须遵守以下输出规范（强制执行，不得省略）：
--------------------------------
**逐步推理原则**：
每一个“步骤”的输出中，都必须包含以下字段：

- Step：当前步骤名称（简短）
- Inputs：本步骤使用了哪些输入（列出：图片/制作表路径/亮点条目/制作点/搜索结果 URL 等）
- Observation：从 Inputs 中观察到的事实（只写事实，不写推断）
- Reasoning：你如何从 Observation 推导到结论
- Decision：本步骤最终做出的选择（这一步的结果）
- Rationale：为什么做出该 Decision（必须对应到 Observation/搜索证据）
- Checks：你做了哪些验证（例如：是否可控、是否可复用、是否过像原图、是否可提取）

注意：
- 如果证据不足，无法支撑起合理的推理，必须写明缺口，并触发“继续搜索/继续分析”，不得强行下结论。
- 该规范的核心目的不是约束输出，而是将思考过程显式化。

$user$
# 任务目标

从 `input/` 目录中分析：
- 原始图片
- 制作表（包含"实质/形式"结构）
- 亮点 JSON 数据
- 制作点数据（包含实质结果，记录了图片组中反复出现的元素）

**核心目的**：筛选并提取多模态特征维度，使其成为生成模型友好的控制信号。这些特征不仅用于还原图像，更重要的是用于学习、复用和建构全新内容。

---

# 一、核心概念

## 1. 多模态维度：图片维度 / 需求维度
本质是 **图片的维度**：图片的哪些方面需要提取多模态信息，因此它首先是 **需求（Need）**。

Image Dimension 必须来源于：
- 原始图片
- 制作表（实质 / 形式结构）
- 亮点 JSON
- 制作点实质结果

Image Dimension 只是说明：**图片的哪些方面需要被结构化表达。**

---

## 2. Control Signal（控制信号 / 特征维度）

对每一个 Image Dimension，必须进一步提炼为：**生成模型可消费的控制信号。**

Control Signal 描述的是：**特征空间 / 表示方式**，而不是某张图片的具体值。

Control Signal 具有以下性质：
- 可参数化
- 可组合
- 可独立修改
- 可用于生成模型 conditioning

例如：
Image Dimension：构图结构
Control Signal：layout grid + subject bbox

---

## 3. Feature Value（特征值）

Feature Value 是：某个 Control Signal 在具体图片上的实例化结果，它的提取依赖工具。

因此：

Tool Research 的目标是
**寻找能够从图片中提取 Feature Value 的工具。**

## 4. 实质/形式双层模型

所有多模态图片维度必须明确归属为"实质"或"形式"：

**实质（Substance）**：
- 定义：图像中的某一个物体本身
- 例如：一个人物、一个建筑、一个物品
- 制作点实质结果中记录了图片组中多次出现的重要实质

**形式（Form）**：
- 定义：实质的各种属性，或图像整体的属性
- 作用于实质的形式：物体的颜色、姿态、材质、光照等
- 作用于图像整体的形式：构图、整体色调、风格等
- 注意：即使某个形式（如构图）不属于任何具体实质，如果需要也要提取

**基本规则**：先识别实质（物体本身），再推导形式（物体的属性）。

---

# 二、工作流程

## 第一步：识别维度

### 1. 分析输入数据
- 查看原始图片，理解图片组的整体特征
- 阅读制作表，理解实质/形式结构
- **重点关注亮点数据**：亮点是图片表现力的核心
- **重点关注制作点实质结果**：记录了图片组中反复出现的元素

### 2. 识别需要提取多模态需求的维度
- 维度的提取必须遵循层级顺序：全局环境 → 实体 → 实体属性。需要有所选择，筛选出最需要多模态特征值的维度
- 先确定影响整个图像的全局段落（如构图、光照、整体色调），
- 再确认核心实质（图片中的物体本身）**制作点实质结果中的元素具有优先级**：这些元素本身就是具有一致性要求的实质
- 最后提取实体的形式（与制作表/亮点进行匹配）
- 输出全局、实质、形式列表（与原始数据完全一致）

## 第二步：筛选特征维度（控制信号）

### 1. 调用sub agent搜索知识
- 通过sub agent工具调用子agent，在小红书搜索对控制信号的筛选有帮助的知识，并保存在knowledge中
- 向sub agent提供得到的特征，并要求调用skill/dimension_research.md，返回搜索结果
- 将研究过程和发现保存在 `knowledge/` 目录，保留原始URL，具体策略参考skill

### 2. 为多模态维度选择特征维度
- 为每个图像维度筛选合适的控制信号
- 注意：全局、实质和形式的维度应有所区分，全局和形式的维度需要表示对应特征，实质的维度应该去除所有形式和属性，以素材的样式展示对应实体。
- 优先选择可逆性强、生成模型友好的特征维度
- **前瞻性思考**：筛选时就要考虑每个特征在还原中如何被使用、起到什么作用
- **避免过度相似**：不要提取与原图过于相似的特征，因为为了还原而还原没有价值，特征应该能用于学习、复用和建构全新内容
- 撰写过程文档，详细解释每个维度的选择原因、用途等信息，以及利用搜索得到知识的方式和原因，对未利用到的知识也要有所解释。

## 第三步：提取特征值

### 1. 知识研究

**调用sub agent搜索工具**：
- 通过sub agent工具调用子agent，在小红书搜索对特征提取有帮助的工具的知识，并保存在knowledge中
- 向sub agent提供需要提取的特征维度，并要求调用skill/tool_research.md，返回搜索结果
- 将研究过程和发现保存在 `knowledge/` 目录，保留原始URL，具体策略参考skill

### 2. 工具选择

**评估标准**：
- 发布时间：优先近期更新的工具（建议先确定当前时间，再判断工具是否近期更新）
- 是否支持多模态处理
- 是否支持批量处理
- 是否支持API或可编程调用

**选择建议**：
- 优先选择更新、更通用、更多人使用或推荐的工具

### 3. 特征提取 **（由于资源有限，这一步跳过，不需要真正提取到特征值。但不能影响其他步骤）**

**提取过程**：
- 使用专业工具提取特征值
- 每个维度单独建立文件夹：`output/features/维度名称/`

**文件组织**：
- 特征值文件（.png 或 .json）
- mapping.json（记录维度与制作表的对应关系）

**mapping.json 格式示例**：
```json
{
  "dimension": "depth_map",
  "mappings": [
    {
      "file": "img_1_segment_1.png",
      "source_image": "input/img_1.jpg",
      "segment": 1,
      "category": "实质",
      "feature": "空间深度结构"
    }
  ]
}
```

**对应关系**：
- 特征值必须与制作表精确对应
- **必须与特定的一个或几个特征关联**，不能模糊处理，更不能只关联到亮点
- **根据真实key串联完整路径**：从段落 → ... → 最后一层特征，确定提取到的多模态特征值属于谁
- 如果是实质，直接关联到段落本身

### 4. 输出研究报告
- 总结筛选了哪些多模态维度及原因
- **明确每个特征在还原中如何被使用、起到什么作用**
- 说明每个特征的可逆性和重建价值
- 说明每个特征如何用于学习、复用和建构全新内容
- 记录工具选择理由和使用经验

---

# 三、核心原则

## 解构原则

**亮点驱动**：
- 亮点数据是图片表现力的核心
- 筛选维度时重点参考亮点
- 对高权重段落细致处理

**可逆性优先**：
- 优先选择可逆性强的维度
- 特征应该是生成模型友好的控制信号
- 避免信息损失过大的表示
- **避免提取与原图过于相似的特征**：特征应该是抽象的、可复用的，而不是原图的复制

**价值导向**：
- 特征不仅用于还原，更要用于学习、复用和建构全新内容
- 为了还原而还原没有价值
- 优先提取具有泛化能力和创造性价值的特征

**适度解构**：
- 维度数量适中，且相互独立，避免过度细分或过度简化
- 若已有维度可以表达目标语义，不新增维度，新维度必须给出必要性说明
- 根据图片组的复杂度灵活调整

**一致性保证**（针对图片组）：
- 若图片组中存在重复实质，保持一致的表示方式
- 例如：相同骨架比例、相同主色调范围、相同空间比例关系
- 一致性优先级高于创意优先级

**过程验证**：
- 不盲目相信过程中结果的正确性
- 对每一个步骤中得到的中间结果，都要根据要求，进行评估和验证。

## 质量要求

**禁止降级解决**：
- 不允许为了方便而使用效果显著更差的简单方案

**禁止平凡表示**：
- 不允许只提供自然语言描述
- 必须使用多模态提供超越语言的信息

**禁止保存原始图片**：
- 图片裁剪只能作为中间步骤
- 最终必须提取多模态特征

---

# 四、还原与创造说明

最终，负责还原的agent将获得：
- 更新的制作表（包含多模态维度和值）
- 各维度的特征文件

还原agent将以生成式模型为主，使用这些特征作为控制信号重建图片。

**更重要的是**：这些特征不仅用于还原原图，更要用于学习规律、复用特征、建构全新内容。因此，特征应该具有泛化能力和创造性价值，而不是原图的简单复制。

---

# 五、Subagent JSON Contract

当需要调用 subagent 执行 skill 时，主 agent 必须先构造严格符合下述 schema 的 JSON，并作为 subagent 的唯一输入。
    - A) dimension_research 输入 JSON（必须字段齐全）
{
  "global_features": [],
  "substances": [],
  "forms": [],
  "highlights": [],
  "goal": "string"
}

生成规则：
- global_features：来自“亮点 + 制作表中能反应整体的形式”，用短词或短语，不要长句。
- substances：来自“制作点实质结果 + 制作表中高权重实质”，去重后输出。
- forms：来自“亮点 + 制作表中的形式”，去重后输出。
- highlights：从亮点 JSON 中提取高权重亮点的简短描述（每条<=20字），用于提示检索语境。
- goal：固定写为“寻找适合生成控制且可学习可复用的多模态特征维度”。

    - B) tool_research 输入 JSON（必须字段齐全）
{
  "dimensions": []
}

生成规则：
- dimensions：来自“筛选后的多模态维度清单”，必须是维度名称（snake_case 或短英文/拼音都可），不要写长描述。

# 开始执行

请根据上述原则，灵活分析 `input/` 目录下的数据，完成多模态特征的筛选和提取工作。