--- model: qwen/qwen3.5-397b-a17b temperature: 0.3 enable_thinking: false thinking_budget_tokens: 3000 --- $system$ 你是面向可逆特征建模的多模态分析专家。核心目标:构建可逆的多模态特征空间,使生成模型能够基于特征重建原始图片。 ## 搜索工具策略 **工具优先级**:`search_posts`(小红书API)→ browser-use(浏览器自动化) **降级条件**:`search_posts` 连续失败2-3次,立即切换到browser-use **登录处理**(browser-use遇到登录时): 1. 获取live URL + 截图二维码 2. 飞书通知"孙若天"(附URL、截图、进度说明) 3. 使用 `browser_wait_for_user_action` 等待登录完成 4. 确认后继续搜索 ## 核心工作原则 **可审计理由链**:每次行动前输出思维过程 - ACTION:当前要做什么 - WHY:2-4条理由(可验证) - EVIDENCE:1-3条证据(引用字段或原句) - NEXT:下一步计划 **教师模型**:复杂问题时使用 `ask_teacher` 工具(openai/gpt-5.4) - 适用:复杂决策、概念理解、思路验证、边界判断 **知识使用决策**: - ✅ 可用预训练知识:理解概念、分析问题、设计搜索策略、解释结果 - ❌ 必须搜索验证:选择工具/方法、评估效果、推荐方案、判断可行性 **知识来源标注**: - 初始知识:输入数据的确定性事实 - 假设:基于已知的推测(需说明依据和置信度) - 推理链:前提(标注来源)→ 逻辑 → 结论 - 新知识:搜索获得(必须标注URL和可靠性) **评估机制**:关键步骤完成后评估(完整性、准确性、可逆性、可复用性),决策PASS/ADJUST/REDO $user$ # 任务目标 从 `input/` 目录分析: - 原始图片 - 制作表(实质/形式结构) - 亮点JSON数据 - 制作点数据(图片组中反复出现的元素) **核心目的**:筛选并提取多模态特征维度,使其成为生成模型友好的控制信号。特征不仅用于还原图像,更重要的是用于学习、复用和建构全新内容。 --- ## 核心概念 **三层映射关系**: ``` 亮点 ──1:1──> 图片维度 ──1:多──> 特征维度 ──多工具──> 特征值 ``` **概念定义**: - **Image Dimension(图片维度)**:图片的哪个方面需要被表达 - **Control Signal(特征维度)**:生成模型可用的特征表示 - **Feature Value(特征值)**:特征维度在具体图片上的值 **亮点类型与提取范围**: - **实质类**(物体/人物)→ 提取该实质的形式属性 - **形式类**(视觉效果/风格)→ 提取该形式维度本身 - **全局类**(整体画面)→ 提取全局形式维度 --- ## 工作流程 **处理单位**:以亮点为核心,每个亮点独立完成完整流程 **流程**: 1. 读取亮点数据,按权重排序 2. 对每个亮点:识别图片维度 → 筛选控制信号 → 提取特征值 → 评估 3. 生成整合报告 --- ## 第一步:识别图片维度(1:1映射) **任务**:为每个亮点识别一个对应的图片维度 **推理要求**: - 前提:亮点类型、描述 - 逻辑:该亮点关注图片的哪个方面 - 边界:为什么其他方面不属于该亮点 - 结论:图片维度名称 **评估标准**:完整性、准确性、边界性、唯一性(1:1) **输出**:图片维度名称、类型、描述 --- ## 第二步:筛选控制信号(1:多映射) **任务**:将图片维度分解为可提取的特征维度 ### 1. 调用dimension_research skill **输入JSON**: ```json { "highlight_id": "...", "highlight_type": "实质/形式/全局", "image_dimension": "...", "image_dimension_description": "...", "goal": "为该图片维度寻找适合的特征维度(Control Signals)" } ``` **搜索要求**: - 只在小红书搜索 - Query简短(3-5词) - **Query必须包含动作词**(提取、检测、识别、方法、工具等) - **禁止只用内容关键词**(如"女性画家"、"白色裙子"等) - 2-3轮搜索 - 记录迭代逻辑 **Query自检**:每次搜索前问自己 - 这个query包含"如何提取"的意思吗? - 这个query会搜到方法和工具吗? - 如果只会搜到图片内容,立即重新构造 ### 2. 分解特征维度 **分解原则**: - 实质类 → 实质本身 + 形式属性(多个) - 形式类 → 该形式表示(1个) - 全局类 → 全局特征(1个或少数) **输出要求**:每个特征维度包含 - dimension_name(snake_case) - category(global/substance/form) - output_format(image/json) - format_reason - generation_usage ### 3. 评估:Control Signals分解结果 评估标准:完整性、准确性、可逆性、可复用性、边界性、映射关系 决策:PASS / ADJUST / REDO --- ## 第三步:提取单个亮点的Feature Values **【第三层:特征维度 → 特征值,可使用多工具对比】** ### 1. 调用tool_research skill **目的**:为该亮点的Control Signals寻找最合适的提取工具。 **重要**:subagent必须严格遵守上述"知识与推理体系"和"评估与反馈机制"的全局规则。 **调用方式**: - 通过sub agent工具调用子agent,使用browser use工具,**只在小红书平台搜索**对特征提取有帮助的工具的知识 - 向sub agent提供需要提取的特征维度,并要求调用skill/tool_research.md,返回搜索结果 - 将研究过程和发现保存在 `knowledge/highlight_[N]/` 目录,保留原始URL - **确保subagent理解并执行全局规则**:在调用时明确说明必须遵守知识推理和评估机制 - **搜索要求**: - 只在小红书平台搜索 - Query词简短(3-5个词,语义完整) - 2-3轮搜索,适可而止 - 每轮必须记录迭代原因和递进逻辑 **输入JSON格式**: ```json { "highlight_id": "[亮点ID或序号]", "dimensions": [] // 该亮点筛选后的多模态维度清单,维度名称(snake_case或短英文/拼音) } ``` **详细策略**:参考 `skills/tool_research.md` ### 2. 工具选择 **推理过程**: - 列出搜索得到的工具和案例 - 对每个维度: - **前提**:[引用搜索得到的工具信息和使用案例] - **推理逻辑**:[说明为什么选择这个工具] - **结论**:选择[工具名称] **评估标准**: - 在小红书上有真实使用案例 - 创作者评价好 - 工具可用性强(优先已有工具、在线服务、API) **选择建议**:优先选择在小红书上有真实案例、评价好、可直接使用的工具。 ### 3. 特征提取 **提取过程**: - 使用专业工具提取特征值 - 为该亮点建立文件夹:`output/highlight_[N]/` - 在亮点文件夹下,按维度建立子文件夹:`[category]_[dimension_name]/` - category: global(全局)、substance(实质)、form(形式) - dimension_name: 维度名称(snake_case) **全局和形式维度**: - 对该亮点涉及的图片分别提取特征 - 输出文件命名:`img_N__[dimension_name].png` 或 `.json` **实质维度(重要)**: - **不是对每张图片提取,而是为该亮点的实质元素生成标准化素材** - **每个实质元素都是独立的维度**,分别生成三视图 - **使用nanobanana工具生成三视图素材**(正面、侧面、背面) - **风格要求**:生成的三视图风格必须与原图保持一致(如原图是照片风格,则生成照片级素材;不要生成漫画、插画、卡通风格) - **参考input目录中的示例**,理解三视图的正确形式 - 文件命名:`[entity_name]_front.png`、`[entity_name]_side.png`、`[entity_name]_back.png` - 最终交付物:三个PNG图片文件 **mapping.json格式**: ```json { "highlight_id": "[亮点ID]", "highlight_description": "[亮点描述]", "dimension": "depth_map", "category": "form", "output_format": "image", "mappings": [ { "file": "img_1_segment_1.png", "source_image": "input/img_1.jpg", "segment": 1, "category": "形式", "feature": "空间深度结构" } ] } ``` **实质维度mapping.json示例**: ```json { "highlight_id": "highlight_1", "highlight_description": "女性写生画家专注作画的形象", "dimension": "female_painter", "category": "substance", "output_format": "image", "mappings": [ { "file": "female_painter_front.png", "view": "front", "source_images": ["input/img_1.jpg", "input/img_3.jpg"], "category": "实质", "feature": "女性写生主体" }, { "file": "female_painter_side.png", "view": "side", "source_images": ["input/img_2.jpg"], "category": "实质", "feature": "女性写生主体" }, { "file": "female_painter_back.png", "view": "back", "unavailable": true, "reason": "原图中无背面视角" } ] } ``` **对应关系要求**: - 特征值必须与制作表精确对应 - **必须与特定的一个或几个特征关联**,不能模糊处理 - **根据真实key串联完整路径**:从段落 → ... → 最后一层特征 - 如果是实质,直接关联到段落本身 ### 4. 评估:Feature Values提取结果 使用评估机制对提取出的特征值进行评估: - **完整性**:是否提取了该亮点的所有维度 - **准确性**: - 原图对比:特征值是否准确反映原图中该亮点的特性 - 要求对比:特征值是否符合该亮点的要求 - **可逆性**:特征值是否足够还原该亮点 - **可复用性**:特征值是否具有泛化能力 - **决策**:PASS / ADJUST / REDO 如果评估未通过,根据评估结果进行调整或重做。 ### 5. 输出该亮点的研究报告 - 总结该亮点筛选了哪些多模态维度及原因 - **明确每个特征在还原该亮点时如何被使用、起到什么作用** - 说明每个特征的可逆性和重建价值 - 说明每个特征如何用于学习、复用和建构全新内容 - 记录工具选择理由和使用经验 - **确认所有特征值文件都已实际生成**(实质维度的.png图片、形式/全局维度的图片或json) --- ## 第四步:处理下一个亮点 重复第一步至第三步,处理下一个亮点,直到所有亮点都处理完成。 --- ## 第五步:生成整合报告 所有亮点处理完成后,生成整合报告: **内容**: - 处理的亮点总数和列表 - 每个亮点提取的维度汇总 - 所有特征值的文件清单 - 整体评估: - 所有亮点的特征是否能够完整还原原图 - 特征之间是否存在冗余或遗漏 - 整体的可逆性和可复用性评估 - 建议和改进方向 --- # 三、核心原则 ## 解构原则 **亮点驱动**: - 亮点数据是图片表现力的核心 - 筛选维度时重点参考亮点 - 对高权重段落细致处理 **可逆性优先**: - 优先选择可逆性强的维度 - 特征应该是生成模型友好的控制信号 - 避免信息损失过大的表示 - **避免提取与原图过于相似的特征**:特征应该是抽象的、可复用的 **价值导向**: - 特征不仅用于还原,更要用于学习、复用和建构全新内容 - 为了还原而还原没有价值 - 优先提取具有泛化能力和创造性价值的特征 **适度解构**: - 维度数量适中,且相互独立 - 避免过度细分或过度简化 - 若已有维度可以表达目标语义,不新增维度 - 新维度必须给出必要性说明 - 根据图片组的复杂度灵活调整 **一致性保证**:图片组中重复实质保持一致表示(骨架比例、主色调、空间关系) **过程验证**:对每个中间结果进行评估和验证 --- ## 质量要求 **禁止降级**:不使用效果显著更差的简单方案 **禁止平凡表示**:必须使用多模态特征,不只提供自然语言描述 **禁止保存原图**:不保存原图或其任何部分(裁剪、截图、抠图) - 实质维度 → 标准化素材(去除形式信息) - 形式维度 → 特征可视化(深度图、mask、骨架等) - 全局维度 → 控制信号可视化(光照图、色彩分布等) - 所有特征必须抽象、可复用、可迁移 --- ## 还原与创造说明 还原agent将获得:更新的制作表 + 各维度特征文件 还原方式:以生成式模型为主,使用特征作为控制信号重建图片 **核心价值**:特征不仅用于还原原图,更要用于学习规律、复用特征、建构全新内容 --- ## Subagent输入JSON格式 **dimension_research输入**: ```json { "highlight_id": "...", "highlight_description": "...", "highlight_type": "实质/形式/全局", "image_dimension": "...", "image_dimension_description": "...", "goal": "为该图片维度寻找适合的特征维度(Control Signals)" } ``` **tool_research输入**: ```json { "dimensions": ["dimension1", "dimension2"] } ``` --- # 开始执行 请根据上述原则,灵活分析 `input/` 目录下的数据,完成多模态特征的筛选和提取工作。