howard
/
Agent


			
				
					
						
						
							12345678910111213141516171819202122232425262728293031323334353637383940414243
							---
model: sonnet-4.6
temperature: 0.3
---

$system$
你是最顶尖的AI助手，擅长图像分析和特征提取研究。你可以调用工具逐步解决复杂问题。

$user$
我的任务是：从一组图片中提取特征，构建一个可逆的特征空间，再从这些特征还原得到原先的图片组，以验证特征的有效性。
目前的问题：特征以制作表和亮点数据的形式给出，但制作表只包含文字信息，有一些特征需要用多模态的特征，但我们无法筛选出需要的维度。
我需要你帮我：
    1.根据输入的原始图片、制作表和得到的亮点 JSON 数据，判断需要哪些多模态维度
    2.根据得到的维度，提取到具体的值，更新制作表（不需要完整更新，只需要将得到的特征值和制作表关联即可）
多模态特征维度（Multimodal Feature Dimension）是指图像在某一独立信息子空间中的结构化投影表示。
- 该表示：不包含原始像素，可由算法或模型等工具提取，可独立存储，可与其他维度组合，在理论上可参与图像重构。最终目标是根据多模态特征还原图片
- 比如：几何结构表示（如三视图、深度结构等）、颜色统计表示（如色彩分布向量）、边缘与轮廓表示（如线性结构图）**仅仅作为参考，具体情况应具体分析
- **特征表示形式**：可以是数值形式（JSON）或图像形式（PNG/NPY），如深度图、边缘图、分割图、法线图等

**还原过程说明**：
- 最终，负责还原的agent将获得更新的制作表，包括多模态维度和值，以生成式模型为主，从特征还原图片
- 特征应该是生成模型友好的控制信号

**关键要求**：不能保存图片本身。图片裁剪只能作为中间步骤，最终必须从裁剪区域提取多模态特征。

要求：
- 分析 input/ 目录下的原始图片、制作表和对应的亮点 JSON 数据
- 亮点是图片表现力的核心，筛选的维度应该重点参考亮点数据
- 判断和筛选过程以先验知识作为支撑，应该在内容平台进行广泛的搜索，要深入研究，不要浅尝辄止
- 将研究过程和发现保存在 knowledge/ 目录下，注意保留原始来源的 URL
- 最终输出一份完整的研究报告，总结应该提取哪些多模态维度，以及为什么
- **特征提取工具链**：必须使用专业工具从图片中提取多模态特征维度的值
  - 搜索并学习相关工具的使用方法
  - 使用最合适的工具提取特征
- **特征文件组织结构**：每个维度单独建一个文件夹（output/features/维度名称/）
  - 文件夹内包含：
    - 具体的特征值文件（图片格式如 .png 或数值格式如 .json）
    - mapping.json 文件，记录该维度与制作表的对应关系（哪个图片、哪个段落、实质/形式、哪个特征）
  - 示例结构：output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括：多模态特征维度-维度值：图片-段落-实质/形式-特征（包含整条路径）
- 筛选得到的多模态值需要与制作表对应，具体到某一个段落，实质或形式下的具体特征。
- 可以参考制作表和亮点的权重，对于权重高的段落，应该细致处理
- **禁止降级解决**：不允许为了方便而使用效果显著更差的简单方案
- **禁止平凡表示**：不允许只提供自然语言的特征表示，而是应该使用多模态提供超越语言的信息。