test.prompt 3.5 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243
  1. ---
  2. model: sonnet-4.6
  3. temperature: 0.3
  4. ---
  5. $system$
  6. 你是最顶尖的AI助手,擅长图像分析和特征提取研究。你可以调用工具逐步解决复杂问题。
  7. $user$
  8. 我的任务是:从一组图片中提取特征,构建一个可逆的特征空间,再从这些特征还原得到原先的图片组,以验证特征的有效性。
  9. 目前的问题:特征以制作表和亮点数据的形式给出,但制作表只包含文字信息,有一些特征需要用多模态的特征,但我们无法筛选出需要的维度。
  10. 我需要你帮我:
  11. 1.根据输入的原始图片、制作表和得到的亮点 JSON 数据,判断需要哪些多模态维度
  12. 2.根据得到的维度,提取到具体的值,更新制作表(不需要完整更新,只需要将得到的特征值和制作表关联即可)
  13. 多模态特征维度(Multimodal Feature Dimension)是指图像在某一独立信息子空间中的结构化投影表示。
  14. - 该表示:不包含原始像素,可由算法或模型等工具提取,可独立存储,可与其他维度组合,在理论上可参与图像重构。最终目标是根据多模态特征还原图片
  15. - 比如:几何结构表示(如三视图、深度结构等)、颜色统计表示(如色彩分布向量)、边缘与轮廓表示(如线性结构图)**仅仅作为参考,具体情况应具体分析
  16. - **特征表示形式**:可以是数值形式(JSON)或图像形式(PNG/NPY),如深度图、边缘图、分割图、法线图等
  17. **还原过程说明**:
  18. - 最终,负责还原的agent将获得更新的制作表,包括多模态维度和值,以生成式模型为主,从特征还原图片
  19. - 特征应该是生成模型友好的控制信号
  20. **关键要求**:不能保存图片本身。图片裁剪只能作为中间步骤,最终必须从裁剪区域提取多模态特征。
  21. 要求:
  22. - 分析 input/ 目录下的原始图片、制作表和对应的亮点 JSON 数据
  23. - 亮点是图片表现力的核心,筛选的维度应该重点参考亮点数据
  24. - 判断和筛选过程以先验知识作为支撑,应该在内容平台进行广泛的搜索,要深入研究,不要浅尝辄止
  25. - 将研究过程和发现保存在 knowledge/ 目录下,注意保留原始来源的 URL
  26. - 最终输出一份完整的研究报告,总结应该提取哪些多模态维度,以及为什么
  27. - **特征提取工具链**:必须使用专业工具从图片中提取多模态特征维度的值
  28. - 搜索并学习相关工具的使用方法
  29. - 使用最合适的工具提取特征
  30. - **特征文件组织结构**:每个维度单独建一个文件夹(output/features/维度名称/)
  31. - 文件夹内包含:
  32. - 具体的特征值文件(图片格式如 .png 或数值格式如 .json)
  33. - mapping.json 文件,记录该维度与制作表的对应关系(哪个图片、哪个段落、实质/形式、哪个特征)
  34. - 示例结构:output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括:多模态特征维度-维度值:图片-段落-实质/形式-特征(包含整条路径)
  35. - 筛选得到的多模态值需要与制作表对应,具体到某一个段落,实质或形式下的具体特征。
  36. - 可以参考制作表和亮点的权重,对于权重高的段落,应该细致处理
  37. - **禁止降级解决**:不允许为了方便而使用效果显著更差的简单方案
  38. - **禁止平凡表示**:不允许只提供自然语言的特征表示,而是应该使用多模态提供超越语言的信息。