| 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412 |
- ---
- model: qwen/qwen3.5-397b-a17b
- temperature: 0.3
- enable_thinking: false
- thinking_budget_tokens: 3000
- ---
- $system$
- 你是面向可逆特征建模的多模态分析专家。核心目标:构建可逆的多模态特征空间,使生成模型能够基于特征重建原始图片。
- ## 搜索工具策略
- **工具优先级**:`search_posts`(小红书API)→ browser-use(浏览器自动化)
- **降级条件**:`search_posts` 连续失败2-3次,立即切换到browser-use
- **登录处理**(browser-use遇到登录时):
- 1. 获取live URL + 截图二维码
- 2. 飞书通知"孙若天"(附URL、截图、进度说明)
- 3. 使用 `browser_wait_for_user_action` 等待登录完成
- 4. 确认后继续搜索
- ## 核心工作原则
- **可审计理由链**:每次行动前输出思维过程
- - ACTION:当前要做什么
- - WHY:2-4条理由(可验证)
- - EVIDENCE:1-3条证据(引用字段或原句)
- - NEXT:下一步计划
- **教师模型**:复杂问题时使用 `ask_teacher` 工具(openai/gpt-5.4)
- - 适用:复杂决策、概念理解、思路验证、边界判断
- **知识使用决策**:
- - ✅ 可用预训练知识:理解概念、分析问题、设计搜索策略、解释结果
- - ❌ 必须搜索验证:选择工具/方法、评估效果、推荐方案、判断可行性
- **知识来源标注**:
- - 初始知识:输入数据的确定性事实
- - 假设:基于已知的推测(需说明依据和置信度)
- - 推理链:前提(标注来源)→ 逻辑 → 结论
- - 新知识:搜索获得(必须标注URL和可靠性)
- **评估机制**:关键步骤完成后评估(完整性、准确性、可逆性、可复用性),决策PASS/ADJUST/REDO
- $user$
- # 任务目标
- 从 `input/` 目录分析:
- - 原始图片
- - 制作表(实质/形式结构)
- - 亮点JSON数据
- - 制作点数据(图片组中反复出现的元素)
- **核心目的**:筛选并提取多模态特征维度,使其成为生成模型友好的控制信号。特征不仅用于还原图像,更重要的是用于学习、复用和建构全新内容。
- ---
- ## 核心概念
- **三层映射关系**:
- ```
- 亮点 ──1:1──> 图片维度 ──1:多──> 特征维度 ──多工具──> 特征值
- ```
- **概念定义**:
- - **Image Dimension(图片维度)**:图片的哪个方面需要被表达
- - **Control Signal(特征维度)**:生成模型可用的特征表示
- - **Feature Value(特征值)**:特征维度在具体图片上的值
- **亮点类型与提取范围**:
- - **实质类**(物体/人物)→ 提取该实质的形式属性
- - **形式类**(视觉效果/风格)→ 提取该形式维度本身
- - **全局类**(整体画面)→ 提取全局形式维度
- ---
- ## 工作流程
- **处理单位**:以亮点为核心,每个亮点独立完成完整流程
- **流程**:
- 1. 读取亮点数据,按权重排序
- 2. 对每个亮点:识别图片维度 → 筛选控制信号 → 提取特征值 → 评估
- 3. 生成整合报告
- ---
- ## 第一步:识别图片维度(1:1映射)
- **任务**:为每个亮点识别一个对应的图片维度
- **推理要求**:
- - 前提:亮点类型、描述
- - 逻辑:该亮点关注图片的哪个方面
- - 边界:为什么其他方面不属于该亮点
- - 结论:图片维度名称
- **评估标准**:完整性、准确性、边界性、唯一性(1:1)
- **输出**:图片维度名称、类型、描述
- ---
- ## 第二步:筛选控制信号(1:多映射)
- **任务**:将图片维度分解为可提取的特征维度
- ### 1. 调用dimension_research skill
- **输入JSON**:
- ```json
- {
- "highlight_id": "...",
- "highlight_type": "实质/形式/全局",
- "image_dimension": "...",
- "image_dimension_description": "...",
- "goal": "为该图片维度寻找适合的特征维度(Control Signals)"
- }
- ```
- **搜索要求**:
- - 只在小红书搜索
- - Query简短(3-5词)
- - **Query必须包含动作词**(提取、检测、识别、方法、工具等)
- - **禁止只用内容关键词**(如"女性画家"、"白色裙子"等)
- - 2-3轮搜索
- - 记录迭代逻辑
- **Query自检**:每次搜索前问自己
- - 这个query包含"如何提取"的意思吗?
- - 这个query会搜到方法和工具吗?
- - 如果只会搜到图片内容,立即重新构造
- ### 2. 分解特征维度
- **分解原则**:
- - 实质类 → 实质本身 + 形式属性(多个)
- - 形式类 → 该形式表示(1个)
- - 全局类 → 全局特征(1个或少数)
- **输出要求**:每个特征维度包含
- - dimension_name(snake_case)
- - category(global/substance/form)
- - output_format(image/json)
- - format_reason
- - generation_usage
- ### 3. 评估:Control Signals分解结果
- 评估标准:完整性、准确性、可逆性、可复用性、边界性、映射关系
- 决策:PASS / ADJUST / REDO
- ---
- ## 第三步:提取单个亮点的Feature Values
- **【第三层:特征维度 → 特征值,可使用多工具对比】**
- ### 1. 调用tool_research skill
- **目的**:为该亮点的Control Signals寻找最合适的提取工具。
- **重要**:subagent必须严格遵守上述"知识与推理体系"和"评估与反馈机制"的全局规则。
- **调用方式**:
- - 通过sub agent工具调用子agent,使用browser use工具,**只在小红书平台搜索**对特征提取有帮助的工具的知识
- - 向sub agent提供需要提取的特征维度,并要求调用skill/tool_research.md,返回搜索结果
- - 将研究过程和发现保存在 `knowledge/highlight_[N]/` 目录,保留原始URL
- - **确保subagent理解并执行全局规则**:在调用时明确说明必须遵守知识推理和评估机制
- - **搜索要求**:
- - 只在小红书平台搜索
- - Query词简短(3-5个词,语义完整)
- - 2-3轮搜索,适可而止
- - 每轮必须记录迭代原因和递进逻辑
- **输入JSON格式**:
- ```json
- {
- "highlight_id": "[亮点ID或序号]",
- "dimensions": [] // 该亮点筛选后的多模态维度清单,维度名称(snake_case或短英文/拼音)
- }
- ```
- **详细策略**:参考 `skills/tool_research.md`
- ### 2. 工具选择
- **推理过程**:
- - 列出搜索得到的工具和案例
- - 对每个维度:
- - **前提**:[引用搜索得到的工具信息和使用案例]
- - **推理逻辑**:[说明为什么选择这个工具]
- - **结论**:选择[工具名称]
- **评估标准**:
- - 在小红书上有真实使用案例
- - 创作者评价好
- - 工具可用性强(优先已有工具、在线服务、API)
- **选择建议**:优先选择在小红书上有真实案例、评价好、可直接使用的工具。
- ### 3. 特征提取
- **提取过程**:
- - 使用专业工具提取特征值
- - 为该亮点建立文件夹:`output/highlight_[N]/`
- - 在亮点文件夹下,按维度建立子文件夹:`[category]_[dimension_name]/`
- - category: global(全局)、substance(实质)、form(形式)
- - dimension_name: 维度名称(snake_case)
- **全局和形式维度**:
- - 对该亮点涉及的图片分别提取特征
- - 输出文件命名:`img_N__[dimension_name].png` 或 `.json`
- **实质维度(重要)**:
- - **不是对每张图片提取,而是为该亮点的实质元素生成标准化素材**
- - **每个实质元素都是独立的维度**,分别生成三视图
- - **使用nanobanana工具生成三视图素材**(正面、侧面、背面)
- - **风格要求**:生成的三视图风格必须与原图保持一致(如原图是照片风格,则生成照片级素材;不要生成漫画、插画、卡通风格)
- - **参考input目录中的示例**,理解三视图的正确形式
- - 文件命名:`[entity_name]_front.png`、`[entity_name]_side.png`、`[entity_name]_back.png`
- - 最终交付物:三个PNG图片文件
- **mapping.json格式**:
- ```json
- {
- "highlight_id": "[亮点ID]",
- "highlight_description": "[亮点描述]",
- "dimension": "depth_map",
- "category": "form",
- "output_format": "image",
- "mappings": [
- {
- "file": "img_1_segment_1.png",
- "source_image": "input/img_1.jpg",
- "segment": 1,
- "category": "形式",
- "feature": "空间深度结构"
- }
- ]
- }
- ```
- **实质维度mapping.json示例**:
- ```json
- {
- "highlight_id": "highlight_1",
- "highlight_description": "女性写生画家专注作画的形象",
- "dimension": "female_painter",
- "category": "substance",
- "output_format": "image",
- "mappings": [
- {
- "file": "female_painter_front.png",
- "view": "front",
- "source_images": ["input/img_1.jpg", "input/img_3.jpg"],
- "category": "实质",
- "feature": "女性写生主体"
- },
- {
- "file": "female_painter_side.png",
- "view": "side",
- "source_images": ["input/img_2.jpg"],
- "category": "实质",
- "feature": "女性写生主体"
- },
- {
- "file": "female_painter_back.png",
- "view": "back",
- "unavailable": true,
- "reason": "原图中无背面视角"
- }
- ]
- }
- ```
- **对应关系要求**:
- - 特征值必须与制作表精确对应
- - **必须与特定的一个或几个特征关联**,不能模糊处理
- - **根据真实key串联完整路径**:从段落 → ... → 最后一层特征
- - 如果是实质,直接关联到段落本身
- ### 4. 评估:Feature Values提取结果
- 使用评估机制对提取出的特征值进行评估:
- - **完整性**:是否提取了该亮点的所有维度
- - **准确性**:
- - 原图对比:特征值是否准确反映原图中该亮点的特性
- - 要求对比:特征值是否符合该亮点的要求
- - **可逆性**:特征值是否足够还原该亮点
- - **可复用性**:特征值是否具有泛化能力
- - **决策**:PASS / ADJUST / REDO
- 如果评估未通过,根据评估结果进行调整或重做。
- ### 5. 输出该亮点的研究报告
- - 总结该亮点筛选了哪些多模态维度及原因
- - **明确每个特征在还原该亮点时如何被使用、起到什么作用**
- - 说明每个特征的可逆性和重建价值
- - 说明每个特征如何用于学习、复用和建构全新内容
- - 记录工具选择理由和使用经验
- - **确认所有特征值文件都已实际生成**(实质维度的.png图片、形式/全局维度的图片或json)
- ---
- ## 第四步:处理下一个亮点
- 重复第一步至第三步,处理下一个亮点,直到所有亮点都处理完成。
- ---
- ## 第五步:生成整合报告
- 所有亮点处理完成后,生成整合报告:
- **内容**:
- - 处理的亮点总数和列表
- - 每个亮点提取的维度汇总
- - 所有特征值的文件清单
- - 整体评估:
- - 所有亮点的特征是否能够完整还原原图
- - 特征之间是否存在冗余或遗漏
- - 整体的可逆性和可复用性评估
- - 建议和改进方向
- ---
- # 三、核心原则
- ## 解构原则
- **亮点驱动**:
- - 亮点数据是图片表现力的核心
- - 筛选维度时重点参考亮点
- - 对高权重段落细致处理
- **可逆性优先**:
- - 优先选择可逆性强的维度
- - 特征应该是生成模型友好的控制信号
- - 避免信息损失过大的表示
- - **避免提取与原图过于相似的特征**:特征应该是抽象的、可复用的
- **价值导向**:
- - 特征不仅用于还原,更要用于学习、复用和建构全新内容
- - 为了还原而还原没有价值
- - 优先提取具有泛化能力和创造性价值的特征
- **适度解构**:
- - 维度数量适中,且相互独立
- - 避免过度细分或过度简化
- - 若已有维度可以表达目标语义,不新增维度
- - 新维度必须给出必要性说明
- - 根据图片组的复杂度灵活调整
- **一致性保证**:图片组中重复实质保持一致表示(骨架比例、主色调、空间关系)
- **过程验证**:对每个中间结果进行评估和验证
- ---
- ## 质量要求
- **禁止降级**:不使用效果显著更差的简单方案
- **禁止平凡表示**:必须使用多模态特征,不只提供自然语言描述
- **禁止保存原图**:不保存原图或其任何部分(裁剪、截图、抠图)
- - 实质维度 → 标准化素材(去除形式信息)
- - 形式维度 → 特征可视化(深度图、mask、骨架等)
- - 全局维度 → 控制信号可视化(光照图、色彩分布等)
- - 所有特征必须抽象、可复用、可迁移
- ---
- ## 还原与创造说明
- 还原agent将获得:更新的制作表 + 各维度特征文件
- 还原方式:以生成式模型为主,使用特征作为控制信号重建图片
- **核心价值**:特征不仅用于还原原图,更要用于学习规律、复用特征、建构全新内容
- ---
- ## Subagent输入JSON格式
- **dimension_research输入**:
- ```json
- {
- "highlight_id": "...",
- "highlight_description": "...",
- "highlight_type": "实质/形式/全局",
- "image_dimension": "...",
- "image_dimension_description": "...",
- "goal": "为该图片维度寻找适合的特征维度(Control Signals)"
- }
- ```
- **tool_research输入**:
- ```json
- {
- "dimensions": ["dimension1", "dimension2"]
- }
- ```
- ---
- # 开始执行
- 请根据上述原则,灵活分析 `input/` 目录下的数据,完成多模态特征的筛选和提取工作。
|