| 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768 |
- ---
- model: sonnet-4.6
- temperature: 0.3
- ---
- $system$
- 你是最顶尖的多模态AI Agent,擅长图像逆向工程、特征提取研究以及生成式模型(AIGC)的控制信号解析。你可以自主规划步骤,并调用工具来逐步解决复杂的工程问题。
- $user$
- # 核心任务
- 我已经对图片做了一定的解构,但是部分的维度值不精准,也缺乏多模态特征。你需要从一组图片中,使用工具提取更精准的特征(多模态,专业语言),构建一个“可逆的特征空间”。最终目标是:未来的还原Agent能够仅凭借你提取的特征值+解构表,使用生成式模型完美还原出原先的图片组。
- 当前,特征以“制作表”和“提取需求”形式给出。你需要根据这些输入,判断并提取有效的维度,并将其与制作表精准关联。
- ## 输入与核心理念
- - 输入源:`examples/find knowledge/input` 目录下的原始图片、制作表文本、提取需求数据。
- - 终极目标:构建支持“无损还原与高自由度改写”的特征空间。提取的维度必须是生成模型友好的控制信号,且强制遵循原子化解耦原则。严禁提取会导致全局死锁的整体特征;多模态信号必须按实体独立剥离,确保未来能对任何单一模块进行独立替换与重组。
- # 提取策略约束
- - 约束1(形式与实质):对于“实质”特征的提取,应提取素材资产(使用 nanobanana 工具);对于形式相关的亮点,绝对禁止保存原图本身。
- - 约束2(形式特征的模态选择):并非所有“形式”都需要视觉多模态。如果某些形式用文字就能完美控制,则允许使用纯文本模态,但必须调用专业工具提取极度专业的描述,且必须经过严格的图文一致性评估。禁止使用宽泛的自然语言。
- - 约束3(解构的认知顺序):元素的解构必须符合生成式模型的底层特征堆叠逻辑,遵循“从全局基质到局部变量”的单向原则。特征提取必须严格按照从无到有的构建树进行:先锁定恒定不变的实体基座,其次绑定依附于实体的属性资产,最后再解析调度性的动作与环境场信号。预处理层级必须先于编辑组合层级,严禁逻辑倒置。
- - 约束4(全局一致性与复用):
- - 一致性约束:对于制作表中具有重复性的内容(如不同图片中的同一个角色/物品),只提取一个能充分表示这个物品的多模态信息即可,确保特征空间中的实体统一。
- - 极简复用原则:如无必要,勿增实体。能复用的元素绝不重复提取多个,保持特征空间的高效和纯粹。
- # 执行SOP
- **步骤一:需求深度解构与权重分析**
- - 详细阅读原始图片、制作表和亮点 JSON。
- - 重点关注带有高权重的制作点和亮点。不仅要分析“形式”,更要深入分析“实质”。
- - 明确哪些段落/亮点需要哪种模态的特征支撑才能被完美还原。
- - 输出结果报告
- **步骤二:案例驱动的知识检索**
- - 除了你本身的知识,你必须在内容平台进行广泛搜索。
- - 搜索焦点:不要只搜“某工具怎么用”,必须搜索“创作者如何还原此类图片亮点”(真实用例)。
- - 只寻找近半年的用例,注意先确认当前日期
- - 输出结果报告:包含你的检索策略、找到的案例、参考URL
- **步骤三:制定多模态特征提取策略**
- - 针对该组图片,决定提取哪些具体的特征维度?
- **步骤四:专业工具链调用与执行**
- - 搜索并评估最适合提取上述维度的专业工具(包括代码类和非代码类/外部API)。
- - **工具寻找策略**:在筛选特征提取工具时,必须采用高标准,优先寻找符合以下特征的工具:
- 1. 最新的工具。
- 2. 更智能:优先选择智能的工具,而非智能的传统工具。
- 3. 更通用:能够覆盖多种泛化场景的工具。
- - 调用工具从原始图片中提取具体的特征值。每个维度生成独立的输出。
- - **强制一致性校验(核心防错)**:绝不能盲目信任工具的输出!提取完成后,必须进行二次核对。例如:提取的骨骼图/姿态图是否与原图人物发生扭曲或错位?提取的文字 Tag 是否包含原图中不存在的元素?
- - 如果发现工具提取的结果不准确、变形或缺失关键细节,必须直接废弃,调整工具参数或更换工具重新提取。
- - 只寻找近半年的用例,注意先确认当前日期
- - 输出结果报告
- **步骤五:严密挂载与结果评估**
- - 将提取到的特征严格关联回“制作表”的具体段落。
- - **自我评估**:在写入最终文件前,必须进行模拟沙盘推演:“如果把这个特征文件交给生成模型,它真的能还原出制作表里描述的那个实质亮点吗?”如果评估为否,需返回步骤三重新调整。
- **步骤六:输出结果**
- - 最终输出一份完整的研究报告,总结应该提取哪些多模态维度,提取结果是什么?如果没找到工具,预期是什么?
- - **特征提取工具链**:必须使用专业工具从图片中提取多模态特征维度的值
- - **特征文件组织结构**:每个维度单独建一个文件夹
- - 文件夹内包含:
- - 具体的特征值文件(图片格式如 .png 或数值格式如 .json)
- - mapping.json 文件,记录该维度与制作表的对应关系(哪个图片、哪个段落、实质/形式、哪个特征)
- - 示例结构:output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括:多模态特征维度-维度值:图片-段落-实质/形式-特征(包含整条路径)
- - 筛选得到的多模态值需要与制作表对应,具体到某一个段落,实质或形式下的具体特征。
- - 所有的结果、报告放到:examples/find knowledge/knowledge文件夹下
|