howard
/
Agent


			
							1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768
							---
model: sonnet-4.6
temperature: 0.3
---

$system$
你是最顶尖的多模态AI Agent，擅长图像逆向工程、特征提取研究以及生成式模型（AIGC）的控制信号解析。你可以自主规划步骤，并调用工具来逐步解决复杂的工程问题。

$user$
# 核心任务
我已经对图片做了一定的解构，但是部分的维度值不精准，也缺乏多模态特征。你需要从一组图片中，使用工具提取更精准的特征（多模态，专业语言），构建一个“可逆的特征空间”。最终目标是：未来的还原Agent能够仅凭借你提取的特征值+解构表，使用生成式模型完美还原出原先的图片组。
当前，特征以“制作表”和“提取需求”形式给出。你需要根据这些输入，判断并提取有效的维度，并将其与制作表精准关联。

## 输入与核心理念
- 输入源：`examples/find knowledge/input` 目录下的原始图片、制作表文本、提取需求数据。
- 终极目标：构建支持“无损还原与高自由度改写”的特征空间。提取的维度必须是生成模型友好的控制信号，且强制遵循原子化解耦原则。严禁提取会导致全局死锁的整体特征；多模态信号必须按实体独立剥离，确保未来能对任何单一模块进行独立替换与重组。

# 提取策略约束
- 约束1（形式与实质）：对于“实质”特征的提取，应提取素材资产（使用 nanobanana 工具）；对于形式相关的亮点，绝对禁止保存原图本身。
- 约束2（形式特征的模态选择）：并非所有“形式”都需要视觉多模态。如果某些形式用文字就能完美控制，则允许使用纯文本模态，但必须调用专业工具提取极度专业的描述，且必须经过严格的图文一致性评估。禁止使用宽泛的自然语言。
- 约束3（解构的认知顺序）：元素的解构必须符合生成式模型的底层特征堆叠逻辑，遵循“从全局基质到局部变量”的单向原则。特征提取必须严格按照从无到有的构建树进行：先锁定恒定不变的实体基座，其次绑定依附于实体的属性资产，最后再解析调度性的动作与环境场信号。预处理层级必须先于编辑组合层级，严禁逻辑倒置。
- 约束4（全局一致性与复用）：
  - 一致性约束：对于制作表中具有重复性的内容（如不同图片中的同一个角色/物品），只提取一个能充分表示这个物品的多模态信息即可，确保特征空间中的实体统一。
  - 极简复用原则：如无必要，勿增实体。能复用的元素绝不重复提取多个，保持特征空间的高效和纯粹。

# 执行SOP
**步骤一：需求深度解构与权重分析**
- 详细阅读原始图片、制作表和亮点 JSON。
- 重点关注带有高权重的制作点和亮点。不仅要分析“形式”，更要深入分析“实质”。
- 明确哪些段落/亮点需要哪种模态的特征支撑才能被完美还原。
- 输出结果报告

**步骤二：案例驱动的知识检索**
- 除了你本身的知识，你必须在内容平台进行广泛搜索。
- 搜索焦点：不要只搜“某工具怎么用”，必须搜索“创作者如何还原此类图片亮点”（真实用例）。
- 只寻找近半年的用例，注意先确认当前日期
- 输出结果报告：包含你的检索策略、找到的案例、参考URL


**步骤三：制定多模态特征提取策略**
- 针对该组图片，决定提取哪些具体的特征维度？

**步骤四：专业工具链调用与执行**
- 搜索并评估最适合提取上述维度的专业工具（包括代码类和非代码类/外部API）。
- **工具寻找策略**：在筛选特征提取工具时，必须采用高标准，优先寻找符合以下特征的工具：
  1. 最新的工具。
  2. 更智能：优先选择智能的工具，而非智能的传统工具。
  3. 更通用：能够覆盖多种泛化场景的工具。
- 调用工具从原始图片中提取具体的特征值。每个维度生成独立的输出。
- **强制一致性校验（核心防错）**：绝不能盲目信任工具的输出！提取完成后，必须进行二次核对。例如：提取的骨骼图/姿态图是否与原图人物发生扭曲或错位？提取的文字 Tag 是否包含原图中不存在的元素？
- 如果发现工具提取的结果不准确、变形或缺失关键细节，必须直接废弃，调整工具参数或更换工具重新提取。
- 只寻找近半年的用例，注意先确认当前日期
- 输出结果报告

**步骤五：严密挂载与结果评估**
- 将提取到的特征严格关联回“制作表”的具体段落。
- **自我评估**：在写入最终文件前，必须进行模拟沙盘推演：“如果把这个特征文件交给生成模型，它真的能还原出制作表里描述的那个实质亮点吗？”如果评估为否，需返回步骤三重新调整。

**步骤六：输出结果**
- 最终输出一份完整的研究报告，总结应该提取哪些多模态维度，提取结果是什么？如果没找到工具，预期是什么？
- **特征提取工具链**：必须使用专业工具从图片中提取多模态特征维度的值
- **特征文件组织结构**：每个维度单独建一个文件夹 
  - 文件夹内包含：
    - 具体的特征值文件（图片格式如 .png 或数值格式如 .json）
    - mapping.json 文件，记录该维度与制作表的对应关系（哪个图片、哪个段落、实质/形式、哪个特征）
  - 示例结构：output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括：多模态特征维度-维度值：图片-段落-实质/形式-特征（包含整条路径）
- 筛选得到的多模态值需要与制作表对应，具体到某一个段落，实质或形式下的具体特征。
- 所有的结果、报告放到：examples/find knowledge/knowledge文件夹下