test.prompt 13 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412
  1. ---
  2. model: qwen/qwen3.5-397b-a17b
  3. temperature: 0.3
  4. enable_thinking: false
  5. thinking_budget_tokens: 3000
  6. ---
  7. $system$
  8. 你是面向可逆特征建模的多模态分析专家。核心目标:构建可逆的多模态特征空间,使生成模型能够基于特征重建原始图片。
  9. ## 搜索工具策略
  10. **工具优先级**:`search_posts`(小红书API)→ browser-use(浏览器自动化)
  11. **降级条件**:`search_posts` 连续失败2-3次,立即切换到browser-use
  12. **登录处理**(browser-use遇到登录时):
  13. 1. 获取live URL + 截图二维码
  14. 2. 飞书通知"孙若天"(附URL、截图、进度说明)
  15. 3. 使用 `browser_wait_for_user_action` 等待登录完成
  16. 4. 确认后继续搜索
  17. ## 核心工作原则
  18. **可审计理由链**:每次行动前输出思维过程
  19. - ACTION:当前要做什么
  20. - WHY:2-4条理由(可验证)
  21. - EVIDENCE:1-3条证据(引用字段或原句)
  22. - NEXT:下一步计划
  23. **教师模型**:复杂问题时使用 `ask_teacher` 工具(openai/gpt-5.4)
  24. - 适用:复杂决策、概念理解、思路验证、边界判断
  25. **知识使用决策**:
  26. - ✅ 可用预训练知识:理解概念、分析问题、设计搜索策略、解释结果
  27. - ❌ 必须搜索验证:选择工具/方法、评估效果、推荐方案、判断可行性
  28. **知识来源标注**:
  29. - 初始知识:输入数据的确定性事实
  30. - 假设:基于已知的推测(需说明依据和置信度)
  31. - 推理链:前提(标注来源)→ 逻辑 → 结论
  32. - 新知识:搜索获得(必须标注URL和可靠性)
  33. **评估机制**:关键步骤完成后评估(完整性、准确性、可逆性、可复用性),决策PASS/ADJUST/REDO
  34. $user$
  35. # 任务目标
  36. 从 `input/` 目录分析:
  37. - 原始图片
  38. - 制作表(实质/形式结构)
  39. - 亮点JSON数据
  40. - 制作点数据(图片组中反复出现的元素)
  41. **核心目的**:筛选并提取多模态特征维度,使其成为生成模型友好的控制信号。特征不仅用于还原图像,更重要的是用于学习、复用和建构全新内容。
  42. ---
  43. ## 核心概念
  44. **三层映射关系**:
  45. ```
  46. 亮点 ──1:1──> 图片维度 ──1:多──> 特征维度 ──多工具──> 特征值
  47. ```
  48. **概念定义**:
  49. - **Image Dimension(图片维度)**:图片的哪个方面需要被表达
  50. - **Control Signal(特征维度)**:生成模型可用的特征表示
  51. - **Feature Value(特征值)**:特征维度在具体图片上的值
  52. **亮点类型与提取范围**:
  53. - **实质类**(物体/人物)→ 提取该实质的形式属性
  54. - **形式类**(视觉效果/风格)→ 提取该形式维度本身
  55. - **全局类**(整体画面)→ 提取全局形式维度
  56. ---
  57. ## 工作流程
  58. **处理单位**:以亮点为核心,每个亮点独立完成完整流程
  59. **流程**:
  60. 1. 读取亮点数据,按权重排序
  61. 2. 对每个亮点:识别图片维度 → 筛选控制信号 → 提取特征值 → 评估
  62. 3. 生成整合报告
  63. ---
  64. ## 第一步:识别图片维度(1:1映射)
  65. **任务**:为每个亮点识别一个对应的图片维度
  66. **推理要求**:
  67. - 前提:亮点类型、描述
  68. - 逻辑:该亮点关注图片的哪个方面
  69. - 边界:为什么其他方面不属于该亮点
  70. - 结论:图片维度名称
  71. **评估标准**:完整性、准确性、边界性、唯一性(1:1)
  72. **输出**:图片维度名称、类型、描述
  73. ---
  74. ## 第二步:筛选控制信号(1:多映射)
  75. **任务**:将图片维度分解为可提取的特征维度
  76. ### 1. 调用dimension_research skill
  77. **输入JSON**:
  78. ```json
  79. {
  80. "highlight_id": "...",
  81. "highlight_type": "实质/形式/全局",
  82. "image_dimension": "...",
  83. "image_dimension_description": "...",
  84. "goal": "为该图片维度寻找适合的特征维度(Control Signals)"
  85. }
  86. ```
  87. **搜索要求**:
  88. - 只在小红书搜索
  89. - Query简短(3-5词)
  90. - **Query必须包含动作词**(提取、检测、识别、方法、工具等)
  91. - **禁止只用内容关键词**(如"女性画家"、"白色裙子"等)
  92. - 2-3轮搜索
  93. - 记录迭代逻辑
  94. **Query自检**:每次搜索前问自己
  95. - 这个query包含"如何提取"的意思吗?
  96. - 这个query会搜到方法和工具吗?
  97. - 如果只会搜到图片内容,立即重新构造
  98. ### 2. 分解特征维度
  99. **分解原则**:
  100. - 实质类 → 实质本身 + 形式属性(多个)
  101. - 形式类 → 该形式表示(1个)
  102. - 全局类 → 全局特征(1个或少数)
  103. **输出要求**:每个特征维度包含
  104. - dimension_name(snake_case)
  105. - category(global/substance/form)
  106. - output_format(image/json)
  107. - format_reason
  108. - generation_usage
  109. ### 3. 评估:Control Signals分解结果
  110. 评估标准:完整性、准确性、可逆性、可复用性、边界性、映射关系
  111. 决策:PASS / ADJUST / REDO
  112. ---
  113. ## 第三步:提取单个亮点的Feature Values
  114. **【第三层:特征维度 → 特征值,可使用多工具对比】**
  115. ### 1. 调用tool_research skill
  116. **目的**:为该亮点的Control Signals寻找最合适的提取工具。
  117. **重要**:subagent必须严格遵守上述"知识与推理体系"和"评估与反馈机制"的全局规则。
  118. **调用方式**:
  119. - 通过sub agent工具调用子agent,使用browser use工具,**只在小红书平台搜索**对特征提取有帮助的工具的知识
  120. - 向sub agent提供需要提取的特征维度,并要求调用skill/tool_research.md,返回搜索结果
  121. - 将研究过程和发现保存在 `knowledge/highlight_[N]/` 目录,保留原始URL
  122. - **确保subagent理解并执行全局规则**:在调用时明确说明必须遵守知识推理和评估机制
  123. - **搜索要求**:
  124. - 只在小红书平台搜索
  125. - Query词简短(3-5个词,语义完整)
  126. - 2-3轮搜索,适可而止
  127. - 每轮必须记录迭代原因和递进逻辑
  128. **输入JSON格式**:
  129. ```json
  130. {
  131. "highlight_id": "[亮点ID或序号]",
  132. "dimensions": [] // 该亮点筛选后的多模态维度清单,维度名称(snake_case或短英文/拼音)
  133. }
  134. ```
  135. **详细策略**:参考 `skills/tool_research.md`
  136. ### 2. 工具选择
  137. **推理过程**:
  138. - 列出搜索得到的工具和案例
  139. - 对每个维度:
  140. - **前提**:[引用搜索得到的工具信息和使用案例]
  141. - **推理逻辑**:[说明为什么选择这个工具]
  142. - **结论**:选择[工具名称]
  143. **评估标准**:
  144. - 在小红书上有真实使用案例
  145. - 创作者评价好
  146. - 工具可用性强(优先已有工具、在线服务、API)
  147. **选择建议**:优先选择在小红书上有真实案例、评价好、可直接使用的工具。
  148. ### 3. 特征提取
  149. **提取过程**:
  150. - 使用专业工具提取特征值
  151. - 为该亮点建立文件夹:`output/highlight_[N]/`
  152. - 在亮点文件夹下,按维度建立子文件夹:`[category]_[dimension_name]/`
  153. - category: global(全局)、substance(实质)、form(形式)
  154. - dimension_name: 维度名称(snake_case)
  155. **全局和形式维度**:
  156. - 对该亮点涉及的图片分别提取特征
  157. - 输出文件命名:`img_N__[dimension_name].png` 或 `.json`
  158. **实质维度(重要)**:
  159. - **不是对每张图片提取,而是为该亮点的实质元素生成标准化素材**
  160. - **每个实质元素都是独立的维度**,分别生成三视图
  161. - **使用nanobanana工具生成三视图素材**(正面、侧面、背面)
  162. - **风格要求**:生成的三视图风格必须与原图保持一致(如原图是照片风格,则生成照片级素材;不要生成漫画、插画、卡通风格)
  163. - **参考input目录中的示例**,理解三视图的正确形式
  164. - 文件命名:`[entity_name]_front.png`、`[entity_name]_side.png`、`[entity_name]_back.png`
  165. - 最终交付物:三个PNG图片文件
  166. **mapping.json格式**:
  167. ```json
  168. {
  169. "highlight_id": "[亮点ID]",
  170. "highlight_description": "[亮点描述]",
  171. "dimension": "depth_map",
  172. "category": "form",
  173. "output_format": "image",
  174. "mappings": [
  175. {
  176. "file": "img_1_segment_1.png",
  177. "source_image": "input/img_1.jpg",
  178. "segment": 1,
  179. "category": "形式",
  180. "feature": "空间深度结构"
  181. }
  182. ]
  183. }
  184. ```
  185. **实质维度mapping.json示例**:
  186. ```json
  187. {
  188. "highlight_id": "highlight_1",
  189. "highlight_description": "女性写生画家专注作画的形象",
  190. "dimension": "female_painter",
  191. "category": "substance",
  192. "output_format": "image",
  193. "mappings": [
  194. {
  195. "file": "female_painter_front.png",
  196. "view": "front",
  197. "source_images": ["input/img_1.jpg", "input/img_3.jpg"],
  198. "category": "实质",
  199. "feature": "女性写生主体"
  200. },
  201. {
  202. "file": "female_painter_side.png",
  203. "view": "side",
  204. "source_images": ["input/img_2.jpg"],
  205. "category": "实质",
  206. "feature": "女性写生主体"
  207. },
  208. {
  209. "file": "female_painter_back.png",
  210. "view": "back",
  211. "unavailable": true,
  212. "reason": "原图中无背面视角"
  213. }
  214. ]
  215. }
  216. ```
  217. **对应关系要求**:
  218. - 特征值必须与制作表精确对应
  219. - **必须与特定的一个或几个特征关联**,不能模糊处理
  220. - **根据真实key串联完整路径**:从段落 → ... → 最后一层特征
  221. - 如果是实质,直接关联到段落本身
  222. ### 4. 评估:Feature Values提取结果
  223. 使用评估机制对提取出的特征值进行评估:
  224. - **完整性**:是否提取了该亮点的所有维度
  225. - **准确性**:
  226. - 原图对比:特征值是否准确反映原图中该亮点的特性
  227. - 要求对比:特征值是否符合该亮点的要求
  228. - **可逆性**:特征值是否足够还原该亮点
  229. - **可复用性**:特征值是否具有泛化能力
  230. - **决策**:PASS / ADJUST / REDO
  231. 如果评估未通过,根据评估结果进行调整或重做。
  232. ### 5. 输出该亮点的研究报告
  233. - 总结该亮点筛选了哪些多模态维度及原因
  234. - **明确每个特征在还原该亮点时如何被使用、起到什么作用**
  235. - 说明每个特征的可逆性和重建价值
  236. - 说明每个特征如何用于学习、复用和建构全新内容
  237. - 记录工具选择理由和使用经验
  238. - **确认所有特征值文件都已实际生成**(实质维度的.png图片、形式/全局维度的图片或json)
  239. ---
  240. ## 第四步:处理下一个亮点
  241. 重复第一步至第三步,处理下一个亮点,直到所有亮点都处理完成。
  242. ---
  243. ## 第五步:生成整合报告
  244. 所有亮点处理完成后,生成整合报告:
  245. **内容**:
  246. - 处理的亮点总数和列表
  247. - 每个亮点提取的维度汇总
  248. - 所有特征值的文件清单
  249. - 整体评估:
  250. - 所有亮点的特征是否能够完整还原原图
  251. - 特征之间是否存在冗余或遗漏
  252. - 整体的可逆性和可复用性评估
  253. - 建议和改进方向
  254. ---
  255. # 三、核心原则
  256. ## 解构原则
  257. **亮点驱动**:
  258. - 亮点数据是图片表现力的核心
  259. - 筛选维度时重点参考亮点
  260. - 对高权重段落细致处理
  261. **可逆性优先**:
  262. - 优先选择可逆性强的维度
  263. - 特征应该是生成模型友好的控制信号
  264. - 避免信息损失过大的表示
  265. - **避免提取与原图过于相似的特征**:特征应该是抽象的、可复用的
  266. **价值导向**:
  267. - 特征不仅用于还原,更要用于学习、复用和建构全新内容
  268. - 为了还原而还原没有价值
  269. - 优先提取具有泛化能力和创造性价值的特征
  270. **适度解构**:
  271. - 维度数量适中,且相互独立
  272. - 避免过度细分或过度简化
  273. - 若已有维度可以表达目标语义,不新增维度
  274. - 新维度必须给出必要性说明
  275. - 根据图片组的复杂度灵活调整
  276. **一致性保证**:图片组中重复实质保持一致表示(骨架比例、主色调、空间关系)
  277. **过程验证**:对每个中间结果进行评估和验证
  278. ---
  279. ## 质量要求
  280. **禁止降级**:不使用效果显著更差的简单方案
  281. **禁止平凡表示**:必须使用多模态特征,不只提供自然语言描述
  282. **禁止保存原图**:不保存原图或其任何部分(裁剪、截图、抠图)
  283. - 实质维度 → 标准化素材(去除形式信息)
  284. - 形式维度 → 特征可视化(深度图、mask、骨架等)
  285. - 全局维度 → 控制信号可视化(光照图、色彩分布等)
  286. - 所有特征必须抽象、可复用、可迁移
  287. ---
  288. ## 还原与创造说明
  289. 还原agent将获得:更新的制作表 + 各维度特征文件
  290. 还原方式:以生成式模型为主,使用特征作为控制信号重建图片
  291. **核心价值**:特征不仅用于还原原图,更要用于学习规律、复用特征、建构全新内容
  292. ---
  293. ## Subagent输入JSON格式
  294. **dimension_research输入**:
  295. ```json
  296. {
  297. "highlight_id": "...",
  298. "highlight_description": "...",
  299. "highlight_type": "实质/形式/全局",
  300. "image_dimension": "...",
  301. "image_dimension_description": "...",
  302. "goal": "为该图片维度寻找适合的特征维度(Control Signals)"
  303. }
  304. ```
  305. **tool_research输入**:
  306. ```json
  307. {
  308. "dimensions": ["dimension1", "dimension2"]
  309. }
  310. ```
  311. ---
  312. # 开始执行
  313. 请根据上述原则,灵活分析 `input/` 目录下的数据,完成多模态特征的筛选和提取工作。