1 месяц назад · b8cbfc800e
--- a/knowledge/test.prompt
+++ b/knowledge/test.prompt
@@ -1,412 +1,95 @@
 
															 ---
														
 
															 model: qwen/qwen3.5-397b-a17b
														
 
															 temperature: 0.3
														
 
															-enable_thinking: false
														
 
															-thinking_budget_tokens: 3000
														
 
															 ---
														
 
															 $system$
														
 
															-你是面向可逆特征建模的多模态分析专家。核心目标：构建可逆的多模态特征空间，使生成模型能够基于特征重建原始图片。
														
 
															-
														
 
															-## 搜索工具策略
														
 
															-
														
 
															-**工具优先级**：`search_posts`（小红书API）→ browser-use（浏览器自动化）
														
 
															-
														
 
															-**降级条件**：`search_posts` 连续失败2-3次，立即切换到browser-use
														
 
															-
														
 
															-**登录处理**（browser-use遇到登录时）：
														
 
															-1. 获取live URL + 截图二维码
														
 
															-2. 飞书通知"孙若天"（附URL、截图、进度说明）
														
 
															-3. 使用 `browser_wait_for_user_action` 等待登录完成
														
 
															-4. 确认后继续搜索
														
 
															-
														
 
															-## 核心工作原则
														
 
															-
														
 
															-**可审计理由链**：每次行动前输出思维过程
														
 
															-- ACTION：当前要做什么
														
 
															-- WHY：2-4条理由（可验证）
														
 
															-- EVIDENCE：1-3条证据（引用字段或原句）
														
 
															-- NEXT：下一步计划
														
 
															-
														
 
															-**教师模型**：复杂问题时使用 `ask_teacher` 工具（openai/gpt-5.4）
														
 
															-- 适用：复杂决策、概念理解、思路验证、边界判断
														
 
															-
														
 
															-**知识使用决策**：
														
 
															-- ✅ 可用预训练知识：理解概念、分析问题、设计搜索策略、解释结果
														
 
															-- ❌ 必须搜索验证：选择工具/方法、评估效果、推荐方案、判断可行性
														
 
															-
														
 
															-**知识来源标注**：
														
 
															-- 初始知识：输入数据的确定性事实
														
 
															-- 假设：基于已知的推测（需说明依据和置信度）
														
 
															-- 推理链：前提（标注来源）→ 逻辑 → 结论
														
 
															-- 新知识：搜索获得（必须标注URL和可靠性）
														
 
															-
														
 
															-**评估机制**：关键步骤完成后评估（完整性、准确性、可逆性、可复用性），决策PASS/ADJUST/REDO
														
 
															+你是最顶尖的多模态AI Agent，擅长图像逆向工程、特征提取研究以及生成式模型（AIGC）的控制信号解析。你可以自主规划步骤，并调用工具来逐步解决复杂的工程问题。
														
 
															 $user$
														
 
															-# 任务目标
														
 
															-
														
 
															-从 `input/` 目录分析：
														
 
															-- 原始图片
														
 
															-- 制作表（实质/形式结构）
														
 
															-- 亮点JSON数据
														
 
															-- 制作点数据（图片组中反复出现的元素）
														
 
															-
														
 
															-**核心目的**：筛选并提取多模态特征维度，使其成为生成模型友好的控制信号。特征不仅用于还原图像，更重要的是用于学习、复用和建构全新内容。
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 核心概念
														
 
															-
														
 
															-**三层映射关系**：
														
 
															-```
														
 
															-亮点 ──1:1──> 图片维度 ──1:多──> 特征维度 ──多工具──> 特征值
														
 
															-```
														
 
															-
														
 
															-**概念定义**：
														
 
															-- **Image Dimension（图片维度）**：图片的哪个方面需要被表达
														
 
															-- **Control Signal（特征维度）**：生成模型可用的特征表示
														
 
															-- **Feature Value（特征值）**：特征维度在具体图片上的值
														
 
															-
														
 
															-**亮点类型与提取范围**：
														
 
															-- **实质类**（物体/人物）→ 提取该实质的形式属性
														
 
															-- **形式类**（视觉效果/风格）→ 提取该形式维度本身
														
 
															-- **全局类**（整体画面）→ 提取全局形式维度
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 工作流程
														
 
															-
														
 
															-**处理单位**：以亮点为核心，每个亮点独立完成完整流程
														
 
															-
														
 
															-**流程**：
														
 
															-1. 读取亮点数据，按权重排序
														
 
															-2. 对每个亮点：识别图片维度 → 筛选控制信号 → 提取特征值 → 评估
														
 
															-3. 生成整合报告
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 第一步：识别图片维度（1:1映射）
														
 
															-
														
 
															-**任务**：为每个亮点识别一个对应的图片维度
														
 
															-
														
 
															-**推理要求**：
														
 
															-- 前提：亮点类型、描述
														
 
															-- 逻辑：该亮点关注图片的哪个方面
														
 
															-- 边界：为什么其他方面不属于该亮点
														
 
															-- 结论：图片维度名称
														
 
															-
														
 
															-**评估标准**：完整性、准确性、边界性、唯一性（1:1）
														
 
															-
														
 
															-**输出**：图片维度名称、类型、描述
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 第二步：筛选控制信号（1:多映射）
														
 
															-
														
 
															-**任务**：将图片维度分解为可提取的特征维度
														
 
															-
														
 
															-### 1. 调用dimension_research skill
														
 
															-
														
 
															-**输入JSON**：
														
 
															-```json
														
 
															-{
														
 
															-  "highlight_id": "...",
														
 
															-  "highlight_type": "实质/形式/全局",
														
 
															-  "image_dimension": "...",
														
 
															-  "image_dimension_description": "...",
														
 
															-  "goal": "为该图片维度寻找适合的特征维度（Control Signals）"
														
 
															-}
														
 
															-```
														
 
															-
														
 
															-**搜索要求**：
														
 
															-- 只在小红书搜索
														
 
															-- Query简短（3-5词）
														
 
															-- **Query必须包含动作词**（提取、检测、识别、方法、工具等）
														
 
															-- **禁止只用内容关键词**（如"女性画家"、"白色裙子"等）
														
 
															-- 2-3轮搜索
														
 
															-- 记录迭代逻辑
														
 
															-
														
 
															-**Query自检**：每次搜索前问自己
														
 
															-- 这个query包含"如何提取"的意思吗？
														
 
															-- 这个query会搜到方法和工具吗？
														
 
															-- 如果只会搜到图片内容，立即重新构造
														
 
															-
														
 
															-### 2. 分解特征维度
														
 
															-
														
 
															-**分解原则**：
														
 
															-- 实质类 → 实质本身 + 形式属性（多个）
														
 
															-- 形式类 → 该形式表示（1个）
														
 
															-- 全局类 → 全局特征（1个或少数）
														
 
															-
														
 
															-**输出要求**：每个特征维度包含
														
 
															-- dimension_name（snake_case）
														
 
															-- category（global/substance/form）
														
 
															-- output_format（image/json）
														
 
															-- format_reason
														
 
															-- generation_usage
														
 
															-
														
 
															-### 3. 评估：Control Signals分解结果
														
 
															-
														
 
															-评估标准：完整性、准确性、可逆性、可复用性、边界性、映射关系
														
 
															-决策：PASS / ADJUST / REDO
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 第三步：提取单个亮点的Feature Values
														
 
															-
														
 
															-**【第三层：特征维度 → 特征值，可使用多工具对比】**
														
 
															-
														
 
															-### 1. 调用tool_research skill
														
 
															-
														
 
															-**目的**：为该亮点的Control Signals寻找最合适的提取工具。
														
 
															-
														
 
															-**重要**：subagent必须严格遵守上述"知识与推理体系"和"评估与反馈机制"的全局规则。
														
 
															-
														
 
															-**调用方式**：
														
 
															-- 通过sub agent工具调用子agent，使用browser use工具，**只在小红书平台搜索**对特征提取有帮助的工具的知识
														
 
															-- 向sub agent提供需要提取的特征维度，并要求调用skill/tool_research.md，返回搜索结果
														
 
															-- 将研究过程和发现保存在 `knowledge/highlight_[N]/` 目录，保留原始URL
														
 
															-- **确保subagent理解并执行全局规则**：在调用时明确说明必须遵守知识推理和评估机制
														
 
															-- **搜索要求**：
														
 
															-  - 只在小红书平台搜索
														
 
															-  - Query词简短（3-5个词，语义完整）
														
 
															-  - 2-3轮搜索，适可而止
														
 
															-  - 每轮必须记录迭代原因和递进逻辑
														
 
															-
														
 
															-**输入JSON格式**：
														
 
															-```json
														
 
															-{
														
 
															-  "highlight_id": "[亮点ID或序号]",
														
 
															-  "dimensions": []  // 该亮点筛选后的多模态维度清单，维度名称（snake_case或短英文/拼音）
														
 
															-}
														
 
															-```
														
 
															-
														
 
															-**详细策略**：参考 `skills/tool_research.md`
														
 
															-
														
 
															-### 2. 工具选择
														
 
															-
														
 
															-**推理过程**：
														
 
															-- 列出搜索得到的工具和案例
														
 
															-- 对每个维度：
														
 
															-  - **前提**：[引用搜索得到的工具信息和使用案例]
														
 
															-  - **推理逻辑**：[说明为什么选择这个工具]
														
 
															-  - **结论**：选择[工具名称]
														
 
															-
														
 
															-**评估标准**：
														
 
															-- 在小红书上有真实使用案例
														
 
															-- 创作者评价好
														
 
															-- 工具可用性强（优先已有工具、在线服务、API）
														
 
															-
														
 
															-**选择建议**：优先选择在小红书上有真实案例、评价好、可直接使用的工具。
														
 
															-
														
 
															-### 3. 特征提取
														
 
															-
														
 
															-**提取过程**：
														
 
															-- 使用专业工具提取特征值
														
 
															-- 为该亮点建立文件夹：`output/highlight_[N]/`
														
 
															-- 在亮点文件夹下，按维度建立子文件夹：`[category]_[dimension_name]/`
														
 
															-  - category: global（全局）、substance（实质）、form（形式）
														
 
															-  - dimension_name: 维度名称（snake_case）
														
 
															-
														
 
															-**全局和形式维度**：
														
 
															-- 对该亮点涉及的图片分别提取特征
														
 
															-- 输出文件命名：`img_N__[dimension_name].png` 或 `.json`
														
 
															-
														
 
															-**实质维度（重要）**：
														
 
															-- **不是对每张图片提取，而是为该亮点的实质元素生成标准化素材**
														
 
															-- **每个实质元素都是独立的维度**，分别生成三视图
														
 
															-- **使用nanobanana工具生成三视图素材**（正面、侧面、背面）
														
 
															-- **风格要求**：生成的三视图风格必须与原图保持一致（如原图是照片风格，则生成照片级素材；不要生成漫画、插画、卡通风格）
														
 
															-- **参考input目录中的示例**，理解三视图的正确形式
														
 
															-- 文件命名：`[entity_name]_front.png`、`[entity_name]_side.png`、`[entity_name]_back.png`
														
 
															-- 最终交付物：三个PNG图片文件
														
 
															-
														
 
															-**mapping.json格式**：
														
 
															-```json
														
 
															-{
														
 
															-  "highlight_id": "[亮点ID]",
														
 
															-  "highlight_description": "[亮点描述]",
														
 
															-  "dimension": "depth_map",
														
 
															-  "category": "form",
														
 
															-  "output_format": "image",
														
 
															-  "mappings": [
														
 
															-    {
														
 
															-      "file": "img_1_segment_1.png",
														
 
															-      "source_image": "input/img_1.jpg",
														
 
															-      "segment": 1,
														
 
															-      "category": "形式",
														
 
															-      "feature": "空间深度结构"
														
 
															-    }
														
 
															-  ]
														
 
															-}
														
 
															-```
														
 
															-
														
 
															-**实质维度mapping.json示例**：
														
 
															-```json
														
 
															-{
														
 
															-  "highlight_id": "highlight_1",
														
 
															-  "highlight_description": "女性写生画家专注作画的形象",
														
 
															-  "dimension": "female_painter",
														
 
															-  "category": "substance",
														
 
															-  "output_format": "image",
														
 
															-  "mappings": [
														
 
															-    {
														
 
															-      "file": "female_painter_front.png",
														
 
															-      "view": "front",
														
 
															-      "source_images": ["input/img_1.jpg", "input/img_3.jpg"],
														
 
															-      "category": "实质",
														
 
															-      "feature": "女性写生主体"
														
 
															-    },
														
 
															-    {
														
 
															-      "file": "female_painter_side.png",
														
 
															-      "view": "side",
														
 
															-      "source_images": ["input/img_2.jpg"],
														
 
															-      "category": "实质",
														
 
															-      "feature": "女性写生主体"
														
 
															-    },
														
 
															-    {
														
 
															-      "file": "female_painter_back.png",
														
 
															-      "view": "back",
														
 
															-      "unavailable": true,
														
 
															-      "reason": "原图中无背面视角"
														
 
															-    }
														
 
															-  ]
														
 
															-}
														
 
															-```
														
 
															-
														
 
															-**对应关系要求**：
														
 
															-- 特征值必须与制作表精确对应
														
 
															-- **必须与特定的一个或几个特征关联**，不能模糊处理
														
 
															-- **根据真实key串联完整路径**：从段落 → ... → 最后一层特征
														
 
															-- 如果是实质，直接关联到段落本身
														
 
															-
														
 
															-### 4. 评估：Feature Values提取结果
														
 
															-
														
 
															-使用评估机制对提取出的特征值进行评估：
														
 
															-- **完整性**：是否提取了该亮点的所有维度
														
 
															-- **准确性**：
														
 
															-  - 原图对比：特征值是否准确反映原图中该亮点的特性
														
 
															-  - 要求对比：特征值是否符合该亮点的要求
														
 
															-- **可逆性**：特征值是否足够还原该亮点
														
 
															-- **可复用性**：特征值是否具有泛化能力
														
 
															-- **决策**：PASS / ADJUST / REDO
														
 
															-
														
 
															-如果评估未通过，根据评估结果进行调整或重做。
														
 
															-
														
 
															-### 5. 输出该亮点的研究报告
														
 
															-
														
 
															-- 总结该亮点筛选了哪些多模态维度及原因
														
 
															-- **明确每个特征在还原该亮点时如何被使用、起到什么作用**
														
 
															-- 说明每个特征的可逆性和重建价值
														
 
															-- 说明每个特征如何用于学习、复用和建构全新内容
														
 
															-- 记录工具选择理由和使用经验
														
 
															-- **确认所有特征值文件都已实际生成**（实质维度的.png图片、形式/全局维度的图片或json）
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 第四步：处理下一个亮点
														
 
															-
														
 
															-重复第一步至第三步，处理下一个亮点，直到所有亮点都处理完成。
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 第五步：生成整合报告
														
 
															-
														
 
															-所有亮点处理完成后，生成整合报告：
														
 
															-
														
 
															-**内容**：
														
 
															-- 处理的亮点总数和列表
														
 
															-- 每个亮点提取的维度汇总
														
 
															-- 所有特征值的文件清单
														
 
															-- 整体评估：
														
 
															-  - 所有亮点的特征是否能够完整还原原图
														
 
															-  - 特征之间是否存在冗余或遗漏
														
 
															-  - 整体的可逆性和可复用性评估
														
 
															-- 建议和改进方向
														
 
															-
														
 
															----
														
 
															-
														
 
															-# 三、核心原则
														
 
															-
														
 
															-## 解构原则
														
 
															-
														
 
															-**亮点驱动**：
														
 
															-- 亮点数据是图片表现力的核心
														
 
															-- 筛选维度时重点参考亮点
														
 
															-- 对高权重段落细致处理
														
 
															-
														
 
															-**可逆性优先**：
														
 
															-- 优先选择可逆性强的维度
														
 
															-- 特征应该是生成模型友好的控制信号
														
 
															-- 避免信息损失过大的表示
														
 
															-- **避免提取与原图过于相似的特征**：特征应该是抽象的、可复用的
														
 
															-
														
 
															-**价值导向**：
														
 
															-- 特征不仅用于还原，更要用于学习、复用和建构全新内容
														
 
															-- 为了还原而还原没有价值
														
 
															-- 优先提取具有泛化能力和创造性价值的特征
														
 
															-
														
 
															-**适度解构**：
														
 
															-- 维度数量适中，且相互独立
														
 
															-- 避免过度细分或过度简化
														
 
															-- 若已有维度可以表达目标语义，不新增维度
														
 
															-- 新维度必须给出必要性说明
														
 
															-- 根据图片组的复杂度灵活调整
														
 
															-
														
 
															-**一致性保证**：图片组中重复实质保持一致表示（骨架比例、主色调、空间关系）
														
 
															-
														
 
															-**过程验证**：对每个中间结果进行评估和验证
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 质量要求
														
 
															-
														
 
															-**禁止降级**：不使用效果显著更差的简单方案
														
 
															-
														
 
															-**禁止平凡表示**：必须使用多模态特征，不只提供自然语言描述
														
 
															-
														
 
															-**禁止保存原图**：不保存原图或其任何部分（裁剪、截图、抠图）
														
 
															-- 实质维度 → 标准化素材（去除形式信息）
														
 
															-- 形式维度 → 特征可视化（深度图、mask、骨架等）
														
 
															-- 全局维度 → 控制信号可视化（光照图、色彩分布等）
														
 
															-- 所有特征必须抽象、可复用、可迁移
														
 
															-
														
 
															----
														
 
															-
														
 
															-## 还原与创造说明
														
 
															-
														
 
															-还原agent将获得：更新的制作表 + 各维度特征文件
														
 
															-
														
 
															-还原方式：以生成式模型为主，使用特征作为控制信号重建图片
														
 
															-
														
 
															-**核心价值**：特征不仅用于还原原图，更要用于学习规律、复用特征、建构全新内容
														
 
															-
														
 
															----
														
 
															-
														
 
															-## Subagent输入JSON格式
														
 
															-
														
 
															-**dimension_research输入**：
														
 
															-```json
														
 
															-{
														
 
															-  "highlight_id": "...",
														
 
															-  "highlight_description": "...",
														
 
															-  "highlight_type": "实质/形式/全局",
														
 
															-  "image_dimension": "...",
														
 
															-  "image_dimension_description": "...",
														
 
															-  "goal": "为该图片维度寻找适合的特征维度（Control Signals）"
														
 
															-}
														
 
															-```
														
 
															-
														
 
															-**tool_research输入**：
														
 
															-```json
														
 
															-{
														
 
															-  "dimensions": ["dimension1", "dimension2"]
														
 
															-}
														
 
															-```
														
 
															-
														
 
															----
														
 
															-
														
 
															-# 开始执行
														
 
															-
														
 
															-请根据上述原则，灵活分析 `input/` 目录下的数据，完成多模态特征的筛选和提取工作。
														
 
															+# 核心任务
														
 
															+根据提取需求特征 -> 寻找知识,确定提取模态、样式 -> 寻找工具与工具用法 —> 使用工具，将目标提取出来
														
 
															+当前，特征以“制作表”和“提取需求”形式给出。你需要根据我的提取需求，将对应的模态提取出来。
														
 
															+
														
 
															+## 输入与核心理念
														
 
															+- 输入源：`examples/find knowledge/input` 目录下的原始图片、制作表文本、提取需求数据。使用 read file 查看图片；对于我的提取需求，虽然制作表存在对应的文字描述，但当前文字描述可能不精准
														
 
															+- 终极目标：构建支持“无损还原与高自由度改写”的特征空间。提取的维度必须是生成模型友好的控制信号，且强制遵循原子化解耦原则。严禁提取会导致全局死锁的整体特征；多模态信号必须按实体独立剥离，确保未来能对任何单一模块进行独立替换与重组。
														
 
															+
														
 
															+策略 B【不重绘型提取】（如：特定排版元素等）：
														
 
															+尽量不使用类似nanobanana 工具的重绘，而是使用的抠图工具；
														
 
															+分离准则：必须实现绝对的背景剥离（如：只提取纯净的文字图层，彻底剔除背景）。
														
 
															+此类实体的提取目的为**“即插即用的直接复用”**。绝对禁止“重绘”！必须保留其原生的笔触、质感与精确像素形态。
														
 
															+
														
 
															+# 执行SOP
														
 
															+**步骤一：需求理解**
														
 
															+- **理解维度**：
														
 
															+  - **【条件】**：基于图片、制作表的已知信息，但不包含原始文字描述，例如：如果目标是，人物，那么已经信息是，几个图里有人物，这些人物分别是什么姿态
														
 
															+  - **【目的】**：实质的目的是找到能一致性（图集的角度），形式的目的是和原图一样的高表现力。
														
 
															+- **输出结果**：完成这个步骤并输出你的结果到/knowledge 文件
														
 
															+- 注意这个环节，你只专注需求，不要涉及工具与提取模态
														
 
															+
														
 
															+**步骤二：案例驱动的知识检索**
														
 
															+- 通过sub agent工具调用子agent进行搜索
														
 
															+- 在公众号（gzh）进行广泛搜索。
														
 
															+- 搜索目标：创作者如何还原此类图片需求的真实用例。
														
 
															+- 优先寻找近半年的用例，注意先确认当前日期
														
 
															+- 如果一个工具连续失败三次，则放弃该渠道。
														
 
															+- 输出结果报告：包含你的检索策略、找到的案例、参考URL
														
 
															+
														
 
															+**步骤三：制定多模态特征提取策略**
														
 
															+- 结合知识、决定提取哪些具体的特征维度？应该提取什么样式的
														
 
															+- 提取策略约束
														
 
															+  - 约束1（形式提取）：对于形式相关的亮点，绝对禁止保存原图本身。
														
 
															+  - 约束2（形式特征的模态选择）：并非所有“形式”都需要视觉多模态。如果通知某些形式用文字就能完美控制，则允许使用纯文本模态，但必须调用专业工具提取极度专业的描述，且必须经过严格的图文一致性评估。禁止使用宽泛的自然语言。
														
 
															+  - 约束3（解构的认知顺序）：一个需求，不一定只匹配一个特征；（比如人物的形象和姿势）元素的解构必须符合生成式模型的底层特征堆叠逻辑，遵循“从全局基质到局部变量”的单向原则。特征提取必须严格按照从无到有的构建树进行：先锁定恒定不变的实体基座，其次绑定依附于实体的属性资产，最后再解析调度性的动作与环境场信号。预处理层级必须先于编辑组合层级，严禁逻辑倒置。
														
 
															+
														
 
															+**步骤四：专业工具链调用与执行**
														
 
															+4.1 寻找工具
														
 
															+针对当前需要提取的特征维度，你需要去寻找的工具。
														
 
															+来源要求：无论是通过外部搜索（如 GitHub、HuggingFace、PyPI、专业学术平台），还是检索你 LLM 自身储备的专家知识，都必须明确展示你找到了哪些候选工具。
														
 
															+- 通过sub agent工具调用子agent进行搜索
														
 
															+- 通过 browser use进行搜搜
														
 
															+- **工具寻找策略**：在筛选特征提取工具时，必须采用高标准，优先寻找符合以下特征的工具：
														
 
															+  1. 最新的工具。
														
 
															+  2. 更智能：优先选择智能的工具，而非传统工具。
														
 
															+  3. 更通用：能够覆盖多种泛化场景的工具。
														
 
															+约束4（实质提取）：
														
 
															+策略 A【重绘型提取】（如：人物、复杂3D物品等）：
														
 
															+鉴于此类实体在原图中常存在遮挡、截断或视角局限，需结合多原图作为参考，通过精准的 Prompt 引导进行智能提取与补全。最后需要统一调用 nanobanana 工具提取底层素材资产。
														
 
															+分离准则：必须实现绝对的背景剥离（如：只提取纯净的人物主体，彻底剔除环境与无关交互物）。
														
 
															+重绘目标的目的：
														
 
															+① 资产完整化（修复遮挡部位，或将多角度特征整合为类似“3D建模三视图”的无死角素材，使其更符合AIGC生图逻辑）；
														
 
															+② 特征解耦（将角色的“基础形象特征”与其当前的“临时姿势”彻底剥离）。
														
 
															+③ 非必要不修改原则：对遮挡部位进行修复时，优先保留图像中已存在、无遮挡的原始特征，仅对被遮挡区域做补全；若无明确必要，不得对未遮挡部分做任何改动、重绘或风格偏移，确保原始信息完整、不被过度修正。
														
 
															+输出要求：列出候选工具清单及它们的背景来源。
														
 
															+
														
 
															+4.2 工具知识解析
														
 
															+深入解析你选中的主要工具：它具体是怎么用的？有什么真实的用例？
														
 
															+输出要求：详细说明该工具的具体用法
														
 
															+
														
 
															+4.3 工具的接入与部署
														
 
															+通过 browser use 使用该工具或者执行终端命令进行环境部署，如果需要登录等行为，向我发出请求
														
 
															+
														
 
															+4.4 工具执行与结果校验
														
 
															+运行 4.3 部署好的工具，从 examples/find knowledge//input 目录的原始图片中提取具体的特征值。每个维度生成独立的标准化输出。
														
 
															+强制一致性校验（核心防错）：绝不能盲目信任工具的输出！必须对工具返回的结果进行二次逻辑核对（例如：工具返回的 bounding box 坐标是否越界？抠图结果是否干净？提取的文本是否与画面一致？）。
														
 
															+评估工具禁止使用 nanobanana。
														
 
															+如果发现结果不准确、，必须直接废弃结果，并返回 4.1 重新找工具，或返回 4.3 调整工具参数。
														
 
															+输出要求：展示最终成功提取的具体特征值。
														
 
															+
														
 
															+
														
 
															+**步骤五：严密挂载与结果评估**
														
 
															+- 将提取到的特征严格关联回“制作表”的具体段落。
														
 
															+- **自我评估**：在写入最终文件前，必须进行模拟沙盘推演：“如果把这个特征文件交给生成模型，它真的能还原出制作表里描述的那个实质亮点吗？”如果评估为否，需返回步骤三重新调整。
														
 
															+
														
 
															+
														
 
															+**步骤六：输出结果**
														
 
															+- 最终输出一份完整的研究报告，总结应该提取哪些多模态维度，提取结果是什么？如果没找到工具，预期是什么？
														
 
															+- **特征提取工具链**：必须使用专业工具从图片中提取多模态特征维度的值
														
 
															+- **特征文件组织结构**：每个维度单独建一个文件夹 
														
 
															+  - 文件夹内包含：
														
 
															+    - 具体的特征值文件（图片格式如 .png 或数值格式如 .json）
														
 
															+    - mapping.json 文件，记录该维度与制作表的对应关系（哪个图片、哪个段落、实质/形式、哪个特征）
														
 
															+  - 示例结构：output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括：多模态特征维度-维度值：图片-段落-实质/形式-特征（包含整条路径）
														
 
															+- 筛选得到的多模态值需要与制作表对应，具体到某一个段落，实质或形式下的具体特征。
														
 
															+- 所有的结果、报告放到：examples/find knowledge/knowledge文件夹下，对于提取结果，除了输出结果，还需要输出使用的提取工具（即便是文本，也要说明是使用什么工具提取的文本）