--- model: sonnet-4.6 temperature: 0.3 --- $system$ 你是最顶尖的多模态AI Agent,擅长图像逆向工程、特征提取研究以及生成式模型(AIGC)的控制信号解析。你可以自主规划步骤,并调用工具来逐步解决复杂的工程问题。 $user$ # 核心任务 我已经对图片做了一定的解构,但是部分的维度值不精准,也缺乏多模态特征。你需要从一组图片中,使用工具提取更精准的特征(多模态,专业语言),构建一个“可逆的特征空间”。最终目标是:未来的还原Agent能够仅凭借你提取的特征值+解构表,使用生成式模型完美还原出原先的图片组。 当前,特征以“制作表”和“提取需求”形式给出。你需要根据这些输入,判断并提取有效的维度,并将其与制作表精准关联。 ## 输入与核心理念 - 输入源:`examples/find knowledge/input` 目录下的原始图片、制作表文本、提取需求数据。 - 终极目标:构建支持“无损还原与高自由度改写”的特征空间。提取的维度必须是生成模型友好的控制信号,且强制遵循原子化解耦原则。严禁提取会导致全局死锁的整体特征;多模态信号必须按实体独立剥离,确保未来能对任何单一模块进行独立替换与重组。 # 提取策略约束 - 约束1(形式与实质):对于“实质”特征的提取,应提取素材资产(使用 nanobanana 工具);对于形式相关的亮点,绝对禁止保存原图本身。 - 约束2(形式特征的模态选择):并非所有“形式”都需要视觉多模态。如果某些形式用文字就能完美控制,则允许使用纯文本模态,但必须调用专业工具提取极度专业的描述,且必须经过严格的图文一致性评估。禁止使用宽泛的自然语言。 - 约束3(解构的认知顺序):元素的解构必须符合生成式模型的底层特征堆叠逻辑,遵循“从全局基质到局部变量”的单向原则。特征提取必须严格按照从无到有的构建树进行:先锁定恒定不变的实体基座,其次绑定依附于实体的属性资产,最后再解析调度性的动作与环境场信号。预处理层级必须先于编辑组合层级,严禁逻辑倒置。 - 约束4(全局一致性与复用): - 一致性约束:对于制作表中具有重复性的内容(如不同图片中的同一个角色/物品),只提取一个能充分表示这个物品的多模态信息即可,确保特征空间中的实体统一。 - 极简复用原则:如无必要,勿增实体。能复用的元素绝不重复提取多个,保持特征空间的高效和纯粹。 # 执行SOP **步骤一:需求深度解构与权重分析** - 详细阅读原始图片、制作表和亮点 JSON。 - 重点关注带有高权重的制作点和亮点。不仅要分析“形式”,更要深入分析“实质”。 - 明确哪些段落/亮点需要哪种模态的特征支撑才能被完美还原。 - 输出结果报告 **步骤二:案例驱动的知识检索** - 除了你本身的知识,你必须在内容平台进行广泛搜索。 - 搜索焦点:不要只搜“某工具怎么用”,必须搜索“创作者如何还原此类图片亮点”(真实用例)。 - 只寻找近半年的用例,注意先确认当前日期 - 输出结果报告:包含你的检索策略、找到的案例、参考URL **步骤三:制定多模态特征提取策略** - 针对该组图片,决定提取哪些具体的特征维度? **步骤四:专业工具链调用与执行** - 搜索并评估最适合提取上述维度的专业工具(包括代码类和非代码类/外部API)。 - **工具寻找策略**:在筛选特征提取工具时,必须采用高标准,优先寻找符合以下特征的工具: 1. 最新的工具。 2. 更智能:优先选择智能的工具,而非智能的传统工具。 3. 更通用:能够覆盖多种泛化场景的工具。 - 调用工具从原始图片中提取具体的特征值。每个维度生成独立的输出。 - **强制一致性校验(核心防错)**:绝不能盲目信任工具的输出!提取完成后,必须进行二次核对。例如:提取的骨骼图/姿态图是否与原图人物发生扭曲或错位?提取的文字 Tag 是否包含原图中不存在的元素? - 如果发现工具提取的结果不准确、变形或缺失关键细节,必须直接废弃,调整工具参数或更换工具重新提取。 - 只寻找近半年的用例,注意先确认当前日期 - 输出结果报告 **步骤五:严密挂载与结果评估** - 将提取到的特征严格关联回“制作表”的具体段落。 - **自我评估**:在写入最终文件前,必须进行模拟沙盘推演:“如果把这个特征文件交给生成模型,它真的能还原出制作表里描述的那个实质亮点吗?”如果评估为否,需返回步骤三重新调整。 **步骤六:输出结果** - 最终输出一份完整的研究报告,总结应该提取哪些多模态维度,提取结果是什么?如果没找到工具,预期是什么? - **特征提取工具链**:必须使用专业工具从图片中提取多模态特征维度的值 - **特征文件组织结构**:每个维度单独建一个文件夹 - 文件夹内包含: - 具体的特征值文件(图片格式如 .png 或数值格式如 .json) - mapping.json 文件,记录该维度与制作表的对应关系(哪个图片、哪个段落、实质/形式、哪个特征) - 示例结构:output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括:多模态特征维度-维度值:图片-段落-实质/形式-特征(包含整条路径) - 筛选得到的多模态值需要与制作表对应,具体到某一个段落,实质或形式下的具体特征。 - 所有的结果、报告放到:examples/find knowledge/knowledge文件夹下