test.prompt 7.5 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218
  1. ---
  2. model: sonnet-4.6
  3. temperature: 0.3
  4. ---
  5. $system$
  6. 你是面向可逆特征建模的多模态分析专家。你的核心目标是:构建可逆的多模态特征空间,使生成模型能够基于特征重建原始图片。生成模型可以是任何AI模型或工具。
  7. $user$
  8. # 任务目标
  9. 从 `input/` 目录中分析:
  10. - 原始图片
  11. - 制作表(包含"实质/形式"结构)
  12. - 亮点 JSON 数据
  13. - 制作点数据(包含实质结果,记录了图片组中反复出现的元素)
  14. **核心目的**:筛选并提取多模态特征维度,使其成为生成模型友好的控制信号。这些特征不仅用于还原图像,更重要的是用于学习、复用和建构全新内容。
  15. ---
  16. # 一、核心概念
  17. ## 1. 多模态特征维度
  18. 多模态特征维度是图像在某一独立信息子空间中的表示:
  19. - 不包含原始像素
  20. - 可由专业工具提取
  21. - 可独立存储和组合
  22. - 理论上可参与图像重构
  23. - **必须是生成模型友好的控制信号**
  24. **表示形式**:
  25. - 数值形式:JSON
  26. - 图像形式:PNG/NPY
  27. - 语言形式:自然语言的描述
  28. ## 2. 实质/形式双层模型
  29. 所有特征必须明确归属为"实质"或"形式":
  30. **实质(Substance)**:
  31. - 定义:图像中的某一个物体本身
  32. - 例如:一个人物、一个建筑、一个物品
  33. - 制作点实质结果中记录了图片组中多次出现的重要实质
  34. **形式(Form)**:
  35. - 定义:实质的各种属性,或图像整体的属性
  36. - 作用于实质的形式:物体的颜色、姿态、材质、光照等
  37. - 作用于图像整体的形式:构图、整体色调、风格等
  38. - 注意:即使某个形式(如构图)不属于任何具体实质,如果需要也要提取
  39. **基本规则**:先识别实质(物体本身),再推导形式(物体的属性)。
  40. ---
  41. # 二、工作流程
  42. ## 第一步:筛选维度
  43. ### 1. 分析输入数据
  44. - 查看原始图片,理解图片组的整体特征
  45. - 阅读制作表,理解实质/形式结构
  46. - **重点关注亮点数据**:亮点是图片表现力的核心
  47. - **重点关注制作点实质结果**:记录了图片组中反复出现的元素
  48. ### 2. 识别实质
  49. - 确认核心实质(图片中的物体本身)
  50. - **制作点实质结果中反复出现的元素具有优先级**:这些元素本身就是具有一致性要求的实质
  51. - 输出实质列表
  52. ### 3. 推导或匹配形式
  53. - 为每个实质推导或匹配对应的形式(与制作表/亮点进行匹配)
  54. - 识别图像整体的形式(如构图),如果对还原有帮助,即使不属于具体实质也要考虑
  55. - 输出形式列表
  56. ### 4. 搜索还原经验
  57. - 搜索其他人使用生成模型还原图像的经验,并保存在knowledge中
  58. - 了解哪些特征维度对生成模型更友好
  59. - 评估搜索结果,如果不够好需要调整关键词继续搜索
  60. - 广泛收集信息,目标平台尽可能多,知识有相关性即可保存,用于指导之后的维度筛选
  61. - 将研究过程和发现保存在 `knowledge/restoration_experience/` 目录,保留原始URL
  62. ### 5. 筛选多模态维度
  63. - 为每个实质筛选合适的多模态维度
  64. - 为每个形式筛选合适的多模态维度
  65. - 优先选择可逆性强、生成模型友好的维度
  66. - **前瞻性思考**:筛选时就要考虑每个特征在还原中如何被使用、起到什么作用
  67. - **避免过度相似**:不要提取与原图过于相似的特征(如深度图),因为为了还原而还原没有价值,特征应该能用于学习、复用和建构全新内容
  68. ## 第二步:提取特征值
  69. ### 1. 知识研究
  70. **搜索工具**:
  71. - 在内容平台广泛搜索专业工具
  72. - 可以先大量地搜索相关知识后筛选
  73. - 深入研究工具使用方法,不要浅尝辄止
  74. - 根据搜索结果评估query关键词,如果不够好需要调整关键词继续搜索
  75. - 将研究过程和发现保存在 `knowledge/tools/` 目录,保留原始URL
  76. ### 2. 工具选择
  77. **评估标准**:
  78. - 发布时间:优先近期更新的工具(建议先确定当前时间,再判断工具是否近期更新)
  79. - 是否支持多模态处理
  80. - 是否支持批量处理
  81. - 是否支持API或可编程调用
  82. **选择建议**:
  83. - 优先选择更新、更通用、更多人使用或推荐的工具
  84. ### 3. 特征提取
  85. **提取过程**:
  86. - 使用专业工具提取特征值
  87. - 每个维度单独建立文件夹:`output/features/维度名称/`
  88. **文件组织**:
  89. - 特征值文件(.png 或 .json)
  90. - mapping.json(记录维度与制作表的对应关系)
  91. **mapping.json 格式示例**:
  92. ```json
  93. {
  94. "dimension": "depth_map",
  95. "mappings": [
  96. {
  97. "file": "img_1_segment_1.png",
  98. "source_image": "input/img_1.jpg",
  99. "segment": 1,
  100. "category": "实质",
  101. "feature": "空间深度结构"
  102. }
  103. ]
  104. }
  105. ```
  106. **对应关系**:
  107. - 特征值必须与制作表精确对应
  108. - **必须与特定的一个或几个特征关联**,不能模糊处理,更不能只关联到亮点
  109. - **根据真实key串联完整路径**:从段落 → ... → 最后一层特征,确定提取到的多模态特征值属于谁
  110. - 如果是实质,直接关联到段落本身
  111. ### 4. 输出研究报告
  112. - 总结筛选了哪些多模态维度及原因
  113. - **明确每个特征在还原中如何被使用、起到什么作用**
  114. - 说明每个特征的可逆性和重建价值
  115. - 说明每个特征如何用于学习、复用和建构全新内容
  116. - 记录工具选择理由和使用经验
  117. - 单独生成一份报告,记录每次搜索的关键词、策略,以及得到的结果
  118. ---
  119. # 三、核心原则
  120. ## 解构原则
  121. **亮点驱动**:
  122. - 亮点数据是图片表现力的核心
  123. - 筛选维度时重点参考亮点
  124. - 对高权重段落细致处理
  125. **可逆性优先**:
  126. - 优先选择可逆性强的维度
  127. - 特征应该是生成模型友好的控制信号
  128. - 避免信息损失过大的表示
  129. - **避免提取与原图过于相似的特征**:特征应该是抽象的、可复用的,而不是原图的复制
  130. **价值导向**:
  131. - 特征不仅用于还原,更要用于学习、复用和建构全新内容
  132. - 为了还原而还原没有价值
  133. - 优先提取具有泛化能力和创造性价值的特征
  134. **适度解构**:
  135. - 维度数量适中(建议6-10个)
  136. - 避免过度细分或过度简化
  137. - 根据图片组的复杂度灵活调整
  138. **复用优先**:
  139. - 若已有维度可以表达目标语义,不新增维度
  140. - 新维度必须给出必要性说明
  141. **一致性保证**(针对图片组):
  142. - 若图片组中存在重复实质,保持一致的表示方式
  143. - 例如:相同骨架比例、相同主色调范围、相同空间比例关系
  144. - 一致性优先级高于创意优先级
  145. ## 质量要求
  146. **禁止降级解决**:
  147. - 不允许为了方便而使用效果显著更差的简单方案
  148. **禁止平凡表示**:
  149. - 不允许只提供自然语言描述
  150. - 必须使用多模态提供超越语言的信息
  151. **禁止保存原始图片**:
  152. - 图片裁剪只能作为中间步骤
  153. - 最终必须提取多模态特征
  154. ---
  155. # 四、还原与创造说明
  156. 最终,负责还原的agent将获得:
  157. - 更新的制作表(包含多模态维度和值)
  158. - 各维度的特征文件
  159. 还原agent将以生成式模型为主,使用这些特征作为控制信号重建图片。
  160. **更重要的是**:这些特征不仅用于还原原图,更要用于学习规律、复用特征、建构全新内容。因此,特征应该具有泛化能力和创造性价值,而不是原图的简单复制。
  161. ---
  162. # 开始执行
  163. 请根据上述原则,灵活分析 `input/` 目录下的数据,完成多模态特征的筛选和提取工作。