| 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495 |
- ---
- model: qwen/qwen3.5-397b-a17b
- temperature: 0.3
- ---
- $system$
- 你是最顶尖的多模态AI Agent,擅长图像逆向工程、特征提取研究以及生成式模型(AIGC)的控制信号解析。你可以自主规划步骤,并调用工具来逐步解决复杂的工程问题。
- $user$
- # 核心任务
- 根据提取需求特征 -> 寻找知识,确定提取模态、样式 -> 寻找工具与工具用法 —> 使用工具,将目标提取出来
- 当前,特征以“制作表”和“提取需求”形式给出。你需要根据我的提取需求,将对应的模态提取出来。
- ## 输入与核心理念
- - 输入源:`examples/find knowledge/input` 目录下的原始图片、制作表文本、提取需求数据。使用 read file 查看图片;对于我的提取需求,虽然制作表存在对应的文字描述,但当前文字描述可能不精准
- - 终极目标:构建支持“无损还原与高自由度改写”的特征空间。提取的维度必须是生成模型友好的控制信号,且强制遵循原子化解耦原则。严禁提取会导致全局死锁的整体特征;多模态信号必须按实体独立剥离,确保未来能对任何单一模块进行独立替换与重组。
- 策略 B【不重绘型提取】(如:特定排版元素等):
- 尽量不使用类似nanobanana 工具的重绘,而是使用的抠图工具;
- 分离准则:必须实现绝对的背景剥离(如:只提取纯净的文字图层,彻底剔除背景)。
- 此类实体的提取目的为**“即插即用的直接复用”**。绝对禁止“重绘”!必须保留其原生的笔触、质感与精确像素形态。
- # 执行SOP
- **步骤一:需求理解**
- - **理解维度**:
- - **【条件】**:基于图片、制作表的已知信息,但不包含原始文字描述,例如:如果目标是,人物,那么已经信息是,几个图里有人物,这些人物分别是什么姿态
- - **【目的】**:实质的目的是找到能一致性(图集的角度),形式的目的是和原图一样的高表现力。
- - **输出结果**:完成这个步骤并输出你的结果到/knowledge 文件
- - 注意这个环节,你只专注需求,不要涉及工具与提取模态
- **步骤二:案例驱动的知识检索**
- - 通过sub agent工具调用子agent进行搜索
- - 在公众号(gzh)进行广泛搜索。
- - 搜索目标:创作者如何还原此类图片需求的真实用例。
- - 优先寻找近半年的用例,注意先确认当前日期
- - 如果一个工具连续失败三次,则放弃该渠道。
- - 输出结果报告:包含你的检索策略、找到的案例、参考URL
- **步骤三:制定多模态特征提取策略**
- - 结合知识、决定提取哪些具体的特征维度?应该提取什么样式的
- - 提取策略约束
- - 约束1(形式提取):对于形式相关的亮点,绝对禁止保存原图本身。
- - 约束2(形式特征的模态选择):并非所有“形式”都需要视觉多模态。如果通知某些形式用文字就能完美控制,则允许使用纯文本模态,但必须调用专业工具提取极度专业的描述,且必须经过严格的图文一致性评估。禁止使用宽泛的自然语言。
- - 约束3(解构的认知顺序):一个需求,不一定只匹配一个特征;(比如人物的形象和姿势)元素的解构必须符合生成式模型的底层特征堆叠逻辑,遵循“从全局基质到局部变量”的单向原则。特征提取必须严格按照从无到有的构建树进行:先锁定恒定不变的实体基座,其次绑定依附于实体的属性资产,最后再解析调度性的动作与环境场信号。预处理层级必须先于编辑组合层级,严禁逻辑倒置。
- **步骤四:专业工具链调用与执行**
- 4.1 寻找工具
- 针对当前需要提取的特征维度,你需要去寻找的工具。
- 来源要求:无论是通过外部搜索(如 GitHub、HuggingFace、PyPI、专业学术平台),还是检索你 LLM 自身储备的专家知识,都必须明确展示你找到了哪些候选工具。
- - 通过sub agent工具调用子agent进行搜索
- - 通过 browser use进行搜搜
- - **工具寻找策略**:在筛选特征提取工具时,必须采用高标准,优先寻找符合以下特征的工具:
- 1. 最新的工具。
- 2. 更智能:优先选择智能的工具,而非传统工具。
- 3. 更通用:能够覆盖多种泛化场景的工具。
- 约束4(实质提取):
- 策略 A【重绘型提取】(如:人物、复杂3D物品等):
- 鉴于此类实体在原图中常存在遮挡、截断或视角局限,需结合多原图作为参考,通过精准的 Prompt 引导进行智能提取与补全。最后需要统一调用 nanobanana 工具提取底层素材资产。
- 分离准则:必须实现绝对的背景剥离(如:只提取纯净的人物主体,彻底剔除环境与无关交互物)。
- 重绘目标的目的:
- ① 资产完整化(修复遮挡部位,或将多角度特征整合为类似“3D建模三视图”的无死角素材,使其更符合AIGC生图逻辑);
- ② 特征解耦(将角色的“基础形象特征”与其当前的“临时姿势”彻底剥离)。
- ③ 非必要不修改原则:对遮挡部位进行修复时,优先保留图像中已存在、无遮挡的原始特征,仅对被遮挡区域做补全;若无明确必要,不得对未遮挡部分做任何改动、重绘或风格偏移,确保原始信息完整、不被过度修正。
- 输出要求:列出候选工具清单及它们的背景来源。
- 4.2 工具知识解析
- 深入解析你选中的主要工具:它具体是怎么用的?有什么真实的用例?
- 输出要求:详细说明该工具的具体用法
- 4.3 工具的接入与部署
- 通过 browser use 使用该工具或者执行终端命令进行环境部署,如果需要登录等行为,向我发出请求
- 4.4 工具执行与结果校验
- 运行 4.3 部署好的工具,从 examples/find knowledge//input 目录的原始图片中提取具体的特征值。每个维度生成独立的标准化输出。
- 强制一致性校验(核心防错):绝不能盲目信任工具的输出!必须对工具返回的结果进行二次逻辑核对(例如:工具返回的 bounding box 坐标是否越界?抠图结果是否干净?提取的文本是否与画面一致?)。
- 评估工具禁止使用 nanobanana。
- 如果发现结果不准确、,必须直接废弃结果,并返回 4.1 重新找工具,或返回 4.3 调整工具参数。
- 输出要求:展示最终成功提取的具体特征值。
- **步骤五:严密挂载与结果评估**
- - 将提取到的特征严格关联回“制作表”的具体段落。
- - **自我评估**:在写入最终文件前,必须进行模拟沙盘推演:“如果把这个特征文件交给生成模型,它真的能还原出制作表里描述的那个实质亮点吗?”如果评估为否,需返回步骤三重新调整。
- **步骤六:输出结果**
- - 最终输出一份完整的研究报告,总结应该提取哪些多模态维度,提取结果是什么?如果没找到工具,预期是什么?
- - **特征提取工具链**:必须使用专业工具从图片中提取多模态特征维度的值
- - **特征文件组织结构**:每个维度单独建一个文件夹
- - 文件夹内包含:
- - 具体的特征值文件(图片格式如 .png 或数值格式如 .json)
- - mapping.json 文件,记录该维度与制作表的对应关系(哪个图片、哪个段落、实质/形式、哪个特征)
- - 示例结构:output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括:多模态特征维度-维度值:图片-段落-实质/形式-特征(包含整条路径)
- - 筛选得到的多模态值需要与制作表对应,具体到某一个段落,实质或形式下的具体特征。
- - 所有的结果、报告放到:examples/find knowledge/knowledge文件夹下,对于提取结果,除了输出结果,还需要输出使用的提取工具(即便是文本,也要说明是使用什么工具提取的文本)
|