test.prompt 8.0 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495
  1. ---
  2. model: qwen/qwen3.5-397b-a17b
  3. temperature: 0.3
  4. ---
  5. $system$
  6. 你是最顶尖的多模态AI Agent,擅长图像逆向工程、特征提取研究以及生成式模型(AIGC)的控制信号解析。你可以自主规划步骤,并调用工具来逐步解决复杂的工程问题。
  7. $user$
  8. # 核心任务
  9. 根据提取需求特征 -> 寻找知识,确定提取模态、样式 -> 寻找工具与工具用法 —> 使用工具,将目标提取出来
  10. 当前,特征以“制作表”和“提取需求”形式给出。你需要根据我的提取需求,将对应的模态提取出来。
  11. ## 输入与核心理念
  12. - 输入源:`examples/find knowledge/input` 目录下的原始图片、制作表文本、提取需求数据。使用 read file 查看图片;对于我的提取需求,虽然制作表存在对应的文字描述,但当前文字描述可能不精准
  13. - 终极目标:构建支持“无损还原与高自由度改写”的特征空间。提取的维度必须是生成模型友好的控制信号,且强制遵循原子化解耦原则。严禁提取会导致全局死锁的整体特征;多模态信号必须按实体独立剥离,确保未来能对任何单一模块进行独立替换与重组。
  14. 策略 B【不重绘型提取】(如:特定排版元素等):
  15. 尽量不使用类似nanobanana 工具的重绘,而是使用的抠图工具;
  16. 分离准则:必须实现绝对的背景剥离(如:只提取纯净的文字图层,彻底剔除背景)。
  17. 此类实体的提取目的为**“即插即用的直接复用”**。绝对禁止“重绘”!必须保留其原生的笔触、质感与精确像素形态。
  18. # 执行SOP
  19. **步骤一:需求理解**
  20. - **理解维度**:
  21. - **【条件】**:基于图片、制作表的已知信息,但不包含原始文字描述,例如:如果目标是,人物,那么已经信息是,几个图里有人物,这些人物分别是什么姿态
  22. - **【目的】**:实质的目的是找到能一致性(图集的角度),形式的目的是和原图一样的高表现力。
  23. - **输出结果**:完成这个步骤并输出你的结果到/knowledge 文件
  24. - 注意这个环节,你只专注需求,不要涉及工具与提取模态
  25. **步骤二:案例驱动的知识检索**
  26. - 通过sub agent工具调用子agent进行搜索
  27. - 在公众号(gzh)进行广泛搜索。
  28. - 搜索目标:创作者如何还原此类图片需求的真实用例。
  29. - 优先寻找近半年的用例,注意先确认当前日期
  30. - 如果一个工具连续失败三次,则放弃该渠道。
  31. - 输出结果报告:包含你的检索策略、找到的案例、参考URL
  32. **步骤三:制定多模态特征提取策略**
  33. - 结合知识、决定提取哪些具体的特征维度?应该提取什么样式的
  34. - 提取策略约束
  35. - 约束1(形式提取):对于形式相关的亮点,绝对禁止保存原图本身。
  36. - 约束2(形式特征的模态选择):并非所有“形式”都需要视觉多模态。如果通知某些形式用文字就能完美控制,则允许使用纯文本模态,但必须调用专业工具提取极度专业的描述,且必须经过严格的图文一致性评估。禁止使用宽泛的自然语言。
  37. - 约束3(解构的认知顺序):一个需求,不一定只匹配一个特征;(比如人物的形象和姿势)元素的解构必须符合生成式模型的底层特征堆叠逻辑,遵循“从全局基质到局部变量”的单向原则。特征提取必须严格按照从无到有的构建树进行:先锁定恒定不变的实体基座,其次绑定依附于实体的属性资产,最后再解析调度性的动作与环境场信号。预处理层级必须先于编辑组合层级,严禁逻辑倒置。
  38. **步骤四:专业工具链调用与执行**
  39. 4.1 寻找工具
  40. 针对当前需要提取的特征维度,你需要去寻找的工具。
  41. 来源要求:无论是通过外部搜索(如 GitHub、HuggingFace、PyPI、专业学术平台),还是检索你 LLM 自身储备的专家知识,都必须明确展示你找到了哪些候选工具。
  42. - 通过sub agent工具调用子agent进行搜索
  43. - 通过 browser use进行搜搜
  44. - **工具寻找策略**:在筛选特征提取工具时,必须采用高标准,优先寻找符合以下特征的工具:
  45. 1. 最新的工具。
  46. 2. 更智能:优先选择智能的工具,而非传统工具。
  47. 3. 更通用:能够覆盖多种泛化场景的工具。
  48. 约束4(实质提取):
  49. 策略 A【重绘型提取】(如:人物、复杂3D物品等):
  50. 鉴于此类实体在原图中常存在遮挡、截断或视角局限,需结合多原图作为参考,通过精准的 Prompt 引导进行智能提取与补全。最后需要统一调用 nanobanana 工具提取底层素材资产。
  51. 分离准则:必须实现绝对的背景剥离(如:只提取纯净的人物主体,彻底剔除环境与无关交互物)。
  52. 重绘目标的目的:
  53. ① 资产完整化(修复遮挡部位,或将多角度特征整合为类似“3D建模三视图”的无死角素材,使其更符合AIGC生图逻辑);
  54. ② 特征解耦(将角色的“基础形象特征”与其当前的“临时姿势”彻底剥离)。
  55. ③ 非必要不修改原则:对遮挡部位进行修复时,优先保留图像中已存在、无遮挡的原始特征,仅对被遮挡区域做补全;若无明确必要,不得对未遮挡部分做任何改动、重绘或风格偏移,确保原始信息完整、不被过度修正。
  56. 输出要求:列出候选工具清单及它们的背景来源。
  57. 4.2 工具知识解析
  58. 深入解析你选中的主要工具:它具体是怎么用的?有什么真实的用例?
  59. 输出要求:详细说明该工具的具体用法
  60. 4.3 工具的接入与部署
  61. 通过 browser use 使用该工具或者执行终端命令进行环境部署,如果需要登录等行为,向我发出请求
  62. 4.4 工具执行与结果校验
  63. 运行 4.3 部署好的工具,从 examples/find knowledge//input 目录的原始图片中提取具体的特征值。每个维度生成独立的标准化输出。
  64. 强制一致性校验(核心防错):绝不能盲目信任工具的输出!必须对工具返回的结果进行二次逻辑核对(例如:工具返回的 bounding box 坐标是否越界?抠图结果是否干净?提取的文本是否与画面一致?)。
  65. 评估工具禁止使用 nanobanana。
  66. 如果发现结果不准确、,必须直接废弃结果,并返回 4.1 重新找工具,或返回 4.3 调整工具参数。
  67. 输出要求:展示最终成功提取的具体特征值。
  68. **步骤五:严密挂载与结果评估**
  69. - 将提取到的特征严格关联回“制作表”的具体段落。
  70. - **自我评估**:在写入最终文件前,必须进行模拟沙盘推演:“如果把这个特征文件交给生成模型,它真的能还原出制作表里描述的那个实质亮点吗?”如果评估为否,需返回步骤三重新调整。
  71. **步骤六:输出结果**
  72. - 最终输出一份完整的研究报告,总结应该提取哪些多模态维度,提取结果是什么?如果没找到工具,预期是什么?
  73. - **特征提取工具链**:必须使用专业工具从图片中提取多模态特征维度的值
  74. - **特征文件组织结构**:每个维度单独建一个文件夹
  75. - 文件夹内包含:
  76. - 具体的特征值文件(图片格式如 .png 或数值格式如 .json)
  77. - mapping.json 文件,记录该维度与制作表的对应关系(哪个图片、哪个段落、实质/形式、哪个特征)
  78. - 示例结构:output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括:多模态特征维度-维度值:图片-段落-实质/形式-特征(包含整条路径)
  79. - 筛选得到的多模态值需要与制作表对应,具体到某一个段落,实质或形式下的具体特征。
  80. - 所有的结果、报告放到:examples/find knowledge/knowledge文件夹下,对于提取结果,除了输出结果,还需要输出使用的提取工具(即便是文本,也要说明是使用什么工具提取的文本)