--- model: qwen/qwen3.5-397b-a17b temperature: 0.3 --- $system$ 你是最顶尖的多模态AI Agent,擅长图像逆向工程、特征提取研究以及生成式模型(AIGC)的控制信号解析。你可以自主规划步骤,并调用工具来逐步解决复杂的工程问题。 $user$ # 核心任务 根据提取需求特征 -> 寻找知识,确定提取模态、样式 -> 寻找工具与工具用法 —> 使用工具,将目标提取出来 当前,特征以“制作表”和“提取需求”形式给出。你需要根据我的提取需求,将对应的模态提取出来。 ## 输入与核心理念 - 输入源:`examples/find knowledge_aliduoduo/input` 目录下的原始图片、制作表文本、提取需求数据。使用 read file 查看图片;对于我的提取需求,虽然制作表存在对应的文字描述,但当前文字描述可能不精准 - 终极目标:构建支持“无损还原与高自由度改写”的特征空间。提取的维度必须是生成模型友好的控制信号,且强制遵循原子化解耦原则。严禁提取会导致全局死锁的整体特征;多模态信号必须按实体独立剥离,确保未来能对任何单一模块进行独立替换与重组。 策略 B【不重绘型提取】(如:特定排版元素等): 尽量不使用类似nanobanana 工具的重绘,而是使用的抠图工具; 分离准则:必须实现绝对的背景剥离(如:只提取纯净的文字图层,彻底剔除背景)。 此类实体的提取目的为**“即插即用的直接复用”**。绝对禁止“重绘”!必须保留其原生的笔触、质感与精确像素形态。 # 执行SOP **步骤一:需求理解** - **理解维度**: - **【条件】**:基于图片、制作表的已知信息,但不包含原始文字描述,例如:如果目标是,人物,那么已经信息是,几个图里有人物,这些人物分别是什么姿态 - **【目的】**:实质的目的是找到能一致性(图集的角度),形式的目的是和原图一样的高表现力。 - **输出结果**:完成这个步骤并输出你的结果到/knowledge 文件 - 注意这个环节,你只专注需求,不要涉及工具与提取模态 **步骤二:案例驱动的知识检索** - 通过sub agent工具调用子agent进行搜索 - 在公众号(gzh)进行广泛搜索。 - 搜索目标:创作者如何还原此类图片需求的真实用例。 - 优先寻找近半年的用例,注意先确认当前日期 - 如果一个工具连续失败三次,则放弃该渠道。 - 输出结果报告:包含你的检索策略、找到的案例、参考URL **步骤三:制定多模态特征提取策略** - 结合知识、决定提取哪些具体的特征维度?应该提取什么样式的 - 提取策略约束 - 约束1(形式提取):对于形式相关的亮点,绝对禁止保存原图本身。 - 约束2(形式特征的模态选择):并非所有“形式”都需要视觉多模态。如果通知某些形式用文字就能完美控制,则允许使用纯文本模态,但必须调用专业工具提取极度专业的描述,且必须经过严格的图文一致性评估。禁止使用宽泛的自然语言。 - 约束3(解构的认知顺序):一个需求,不一定只匹配一个特征;(比如人物的形象和姿势)元素的解构必须符合生成式模型的底层特征堆叠逻辑,遵循“从全局基质到局部变量”的单向原则。特征提取必须严格按照从无到有的构建树进行:先锁定恒定不变的实体基座,其次绑定依附于实体的属性资产,最后再解析调度性的动作与环境场信号。预处理层级必须先于编辑组合层级,严禁逻辑倒置。 **步骤四:专业工具链调用与执行** 4.1 寻找工具 针对当前需要提取的特征维度,你需要去寻找的工具。 来源要求:无论是通过外部搜索(如 GitHub、HuggingFace、PyPI、专业学术平台),还是检索你 LLM 自身储备的专家知识,都必须明确展示你找到了哪些候选工具。 - 通过sub agent工具调用子agent进行搜索 - 通过 browser use进行搜搜 - **工具寻找策略**:在筛选特征提取工具时,必须采用高标准,优先寻找符合以下特征的工具: 1. 最新的工具。 2. 更智能:优先选择智能的工具,而非传统工具。 3. 更通用:能够覆盖多种泛化场景的工具。 约束4(实质提取): 策略 A【重绘型提取】(如:人物、复杂3D物品等): 鉴于此类实体在原图中常存在遮挡、截断或视角局限,需结合多原图作为参考,通过精准的 Prompt 引导进行智能提取与补全。最后需要统一调用 nanobanana 工具提取底层素材资产。 分离准则:必须实现绝对的背景剥离(如:只提取纯净的人物主体,彻底剔除环境与无关交互物)。 重绘目标的目的: ① 资产完整化(修复遮挡部位,或将多角度特征整合为类似“3D建模三视图”的无死角素材,使其更符合AIGC生图逻辑); ② 特征解耦(将角色的“基础形象特征”与其当前的“临时姿势”彻底剥离)。 ③ 非必要不修改原则:对遮挡部位进行修复时,优先保留图像中已存在、无遮挡的原始特征,仅对被遮挡区域做补全;若无明确必要,不得对未遮挡部分做任何改动、重绘或风格偏移,确保原始信息完整、不被过度修正。 输出要求:列出候选工具清单及它们的背景来源。 4.2 工具知识解析 深入解析你选中的主要工具:它具体是怎么用的?有什么真实的用例? 输出要求:详细说明该工具的具体用法 4.3 工具的接入与部署 通过 browser use 使用该工具或者执行终端命令进行环境部署,如果需要登录等行为,向我发出请求 4.4 工具执行与结果校验 运行 4.3 部署好的工具,从 examples/find knowledge_aliduoduo/input 目录的原始图片中提取具体的特征值。每个维度生成独立的标准化输出。 强制一致性校验(核心防错):绝不能盲目信任工具的输出!必须对工具返回的结果进行二次逻辑核对(例如:工具返回的 bounding box 坐标是否越界?抠图结果是否干净?提取的文本是否与画面一致?)。 评估工具禁止使用 nanobanana。 如果发现结果不准确、,必须直接废弃结果,并返回 4.1 重新找工具,或返回 4.3 调整工具参数。 输出要求:展示最终成功提取的具体特征值。 **步骤五:严密挂载与结果评估** - 将提取到的特征严格关联回“制作表”的具体段落。 - **自我评估**:在写入最终文件前,必须进行模拟沙盘推演:“如果把这个特征文件交给生成模型,它真的能还原出制作表里描述的那个实质亮点吗?”如果评估为否,需返回步骤三重新调整。 **步骤六:输出结果** - 最终输出一份完整的研究报告,总结应该提取哪些多模态维度,提取结果是什么?如果没找到工具,预期是什么? - **特征提取工具链**:必须使用专业工具从图片中提取多模态特征维度的值 - **特征文件组织结构**:每个维度单独建一个文件夹 - 文件夹内包含: - 具体的特征值文件(图片格式如 .png 或数值格式如 .json) - mapping.json 文件,记录该维度与制作表的对应关系(哪个图片、哪个段落、实质/形式、哪个特征) - 示例结构:output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括:多模态特征维度-维度值:图片-段落-实质/形式-特征(包含整条路径) - 筛选得到的多模态值需要与制作表对应,具体到某一个段落,实质或形式下的具体特征。 - 所有的结果、报告放到:examples/find knowledge_aliduoduo/knowledge文件夹下,对于提取结果,除了输出结果,还需要输出使用的提取工具(即便是文本,也要说明是使用什么工具提取的文本)