Просмотр исходного кода

feat:merge main and blindly change something

elksmmx 6 часов назад
Родитель
Сommit
b8cbfc800e
1 измененных файлов с 87 добавлено и 404 удалено
  1. 87 404
      examples/find knowledge/test.prompt

+ 87 - 404
examples/find knowledge/test.prompt

@@ -1,412 +1,95 @@
 ---
 ---
 model: qwen/qwen3.5-397b-a17b
 model: qwen/qwen3.5-397b-a17b
 temperature: 0.3
 temperature: 0.3
-enable_thinking: false
-thinking_budget_tokens: 3000
 ---
 ---
 
 
 $system$
 $system$
-你是面向可逆特征建模的多模态分析专家。核心目标:构建可逆的多模态特征空间,使生成模型能够基于特征重建原始图片。
-
-## 搜索工具策略
-
-**工具优先级**:`search_posts`(小红书API)→ browser-use(浏览器自动化)
-
-**降级条件**:`search_posts` 连续失败2-3次,立即切换到browser-use
-
-**登录处理**(browser-use遇到登录时):
-1. 获取live URL + 截图二维码
-2. 飞书通知"孙若天"(附URL、截图、进度说明)
-3. 使用 `browser_wait_for_user_action` 等待登录完成
-4. 确认后继续搜索
-
-## 核心工作原则
-
-**可审计理由链**:每次行动前输出思维过程
-- ACTION:当前要做什么
-- WHY:2-4条理由(可验证)
-- EVIDENCE:1-3条证据(引用字段或原句)
-- NEXT:下一步计划
-
-**教师模型**:复杂问题时使用 `ask_teacher` 工具(openai/gpt-5.4)
-- 适用:复杂决策、概念理解、思路验证、边界判断
-
-**知识使用决策**:
-- ✅ 可用预训练知识:理解概念、分析问题、设计搜索策略、解释结果
-- ❌ 必须搜索验证:选择工具/方法、评估效果、推荐方案、判断可行性
-
-**知识来源标注**:
-- 初始知识:输入数据的确定性事实
-- 假设:基于已知的推测(需说明依据和置信度)
-- 推理链:前提(标注来源)→ 逻辑 → 结论
-- 新知识:搜索获得(必须标注URL和可靠性)
-
-**评估机制**:关键步骤完成后评估(完整性、准确性、可逆性、可复用性),决策PASS/ADJUST/REDO
+你是最顶尖的多模态AI Agent,擅长图像逆向工程、特征提取研究以及生成式模型(AIGC)的控制信号解析。你可以自主规划步骤,并调用工具来逐步解决复杂的工程问题。
 
 
 $user$
 $user$
-# 任务目标
-
-从 `input/` 目录分析:
-- 原始图片
-- 制作表(实质/形式结构)
-- 亮点JSON数据
-- 制作点数据(图片组中反复出现的元素)
-
-**核心目的**:筛选并提取多模态特征维度,使其成为生成模型友好的控制信号。特征不仅用于还原图像,更重要的是用于学习、复用和建构全新内容。
-
----
-
-## 核心概念
-
-**三层映射关系**:
-```
-亮点 ──1:1──> 图片维度 ──1:多──> 特征维度 ──多工具──> 特征值
-```
-
-**概念定义**:
-- **Image Dimension(图片维度)**:图片的哪个方面需要被表达
-- **Control Signal(特征维度)**:生成模型可用的特征表示
-- **Feature Value(特征值)**:特征维度在具体图片上的值
-
-**亮点类型与提取范围**:
-- **实质类**(物体/人物)→ 提取该实质的形式属性
-- **形式类**(视觉效果/风格)→ 提取该形式维度本身
-- **全局类**(整体画面)→ 提取全局形式维度
-
----
-
-## 工作流程
-
-**处理单位**:以亮点为核心,每个亮点独立完成完整流程
-
-**流程**:
-1. 读取亮点数据,按权重排序
-2. 对每个亮点:识别图片维度 → 筛选控制信号 → 提取特征值 → 评估
-3. 生成整合报告
-
----
-
-## 第一步:识别图片维度(1:1映射)
-
-**任务**:为每个亮点识别一个对应的图片维度
-
-**推理要求**:
-- 前提:亮点类型、描述
-- 逻辑:该亮点关注图片的哪个方面
-- 边界:为什么其他方面不属于该亮点
-- 结论:图片维度名称
-
-**评估标准**:完整性、准确性、边界性、唯一性(1:1)
-
-**输出**:图片维度名称、类型、描述
-
----
-
-## 第二步:筛选控制信号(1:多映射)
-
-**任务**:将图片维度分解为可提取的特征维度
-
-### 1. 调用dimension_research skill
-
-**输入JSON**:
-```json
-{
-  "highlight_id": "...",
-  "highlight_type": "实质/形式/全局",
-  "image_dimension": "...",
-  "image_dimension_description": "...",
-  "goal": "为该图片维度寻找适合的特征维度(Control Signals)"
-}
-```
-
-**搜索要求**:
-- 只在小红书搜索
-- Query简短(3-5词)
-- **Query必须包含动作词**(提取、检测、识别、方法、工具等)
-- **禁止只用内容关键词**(如"女性画家"、"白色裙子"等)
-- 2-3轮搜索
-- 记录迭代逻辑
-
-**Query自检**:每次搜索前问自己
-- 这个query包含"如何提取"的意思吗?
-- 这个query会搜到方法和工具吗?
-- 如果只会搜到图片内容,立即重新构造
-
-### 2. 分解特征维度
-
-**分解原则**:
-- 实质类 → 实质本身 + 形式属性(多个)
-- 形式类 → 该形式表示(1个)
-- 全局类 → 全局特征(1个或少数)
-
-**输出要求**:每个特征维度包含
-- dimension_name(snake_case)
-- category(global/substance/form)
-- output_format(image/json)
-- format_reason
-- generation_usage
-
-### 3. 评估:Control Signals分解结果
-
-评估标准:完整性、准确性、可逆性、可复用性、边界性、映射关系
-决策:PASS / ADJUST / REDO
-
----
-
-## 第三步:提取单个亮点的Feature Values
-
-**【第三层:特征维度 → 特征值,可使用多工具对比】**
-
-### 1. 调用tool_research skill
-
-**目的**:为该亮点的Control Signals寻找最合适的提取工具。
-
-**重要**:subagent必须严格遵守上述"知识与推理体系"和"评估与反馈机制"的全局规则。
-
-**调用方式**:
-- 通过sub agent工具调用子agent,使用browser use工具,**只在小红书平台搜索**对特征提取有帮助的工具的知识
-- 向sub agent提供需要提取的特征维度,并要求调用skill/tool_research.md,返回搜索结果
-- 将研究过程和发现保存在 `knowledge/highlight_[N]/` 目录,保留原始URL
-- **确保subagent理解并执行全局规则**:在调用时明确说明必须遵守知识推理和评估机制
-- **搜索要求**:
-  - 只在小红书平台搜索
-  - Query词简短(3-5个词,语义完整)
-  - 2-3轮搜索,适可而止
-  - 每轮必须记录迭代原因和递进逻辑
-
-**输入JSON格式**:
-```json
-{
-  "highlight_id": "[亮点ID或序号]",
-  "dimensions": []  // 该亮点筛选后的多模态维度清单,维度名称(snake_case或短英文/拼音)
-}
-```
-
-**详细策略**:参考 `skills/tool_research.md`
-
-### 2. 工具选择
-
-**推理过程**:
-- 列出搜索得到的工具和案例
-- 对每个维度:
-  - **前提**:[引用搜索得到的工具信息和使用案例]
-  - **推理逻辑**:[说明为什么选择这个工具]
-  - **结论**:选择[工具名称]
-
-**评估标准**:
-- 在小红书上有真实使用案例
-- 创作者评价好
-- 工具可用性强(优先已有工具、在线服务、API)
-
-**选择建议**:优先选择在小红书上有真实案例、评价好、可直接使用的工具。
-
-### 3. 特征提取
-
-**提取过程**:
-- 使用专业工具提取特征值
-- 为该亮点建立文件夹:`output/highlight_[N]/`
-- 在亮点文件夹下,按维度建立子文件夹:`[category]_[dimension_name]/`
-  - category: global(全局)、substance(实质)、form(形式)
-  - dimension_name: 维度名称(snake_case)
-
-**全局和形式维度**:
-- 对该亮点涉及的图片分别提取特征
-- 输出文件命名:`img_N__[dimension_name].png` 或 `.json`
-
-**实质维度(重要)**:
-- **不是对每张图片提取,而是为该亮点的实质元素生成标准化素材**
-- **每个实质元素都是独立的维度**,分别生成三视图
-- **使用nanobanana工具生成三视图素材**(正面、侧面、背面)
-- **风格要求**:生成的三视图风格必须与原图保持一致(如原图是照片风格,则生成照片级素材;不要生成漫画、插画、卡通风格)
-- **参考input目录中的示例**,理解三视图的正确形式
-- 文件命名:`[entity_name]_front.png`、`[entity_name]_side.png`、`[entity_name]_back.png`
-- 最终交付物:三个PNG图片文件
-
-**mapping.json格式**:
-```json
-{
-  "highlight_id": "[亮点ID]",
-  "highlight_description": "[亮点描述]",
-  "dimension": "depth_map",
-  "category": "form",
-  "output_format": "image",
-  "mappings": [
-    {
-      "file": "img_1_segment_1.png",
-      "source_image": "input/img_1.jpg",
-      "segment": 1,
-      "category": "形式",
-      "feature": "空间深度结构"
-    }
-  ]
-}
-```
-
-**实质维度mapping.json示例**:
-```json
-{
-  "highlight_id": "highlight_1",
-  "highlight_description": "女性写生画家专注作画的形象",
-  "dimension": "female_painter",
-  "category": "substance",
-  "output_format": "image",
-  "mappings": [
-    {
-      "file": "female_painter_front.png",
-      "view": "front",
-      "source_images": ["input/img_1.jpg", "input/img_3.jpg"],
-      "category": "实质",
-      "feature": "女性写生主体"
-    },
-    {
-      "file": "female_painter_side.png",
-      "view": "side",
-      "source_images": ["input/img_2.jpg"],
-      "category": "实质",
-      "feature": "女性写生主体"
-    },
-    {
-      "file": "female_painter_back.png",
-      "view": "back",
-      "unavailable": true,
-      "reason": "原图中无背面视角"
-    }
-  ]
-}
-```
-
-**对应关系要求**:
-- 特征值必须与制作表精确对应
-- **必须与特定的一个或几个特征关联**,不能模糊处理
-- **根据真实key串联完整路径**:从段落 → ... → 最后一层特征
-- 如果是实质,直接关联到段落本身
-
-### 4. 评估:Feature Values提取结果
-
-使用评估机制对提取出的特征值进行评估:
-- **完整性**:是否提取了该亮点的所有维度
-- **准确性**:
-  - 原图对比:特征值是否准确反映原图中该亮点的特性
-  - 要求对比:特征值是否符合该亮点的要求
-- **可逆性**:特征值是否足够还原该亮点
-- **可复用性**:特征值是否具有泛化能力
-- **决策**:PASS / ADJUST / REDO
-
-如果评估未通过,根据评估结果进行调整或重做。
-
-### 5. 输出该亮点的研究报告
-
-- 总结该亮点筛选了哪些多模态维度及原因
-- **明确每个特征在还原该亮点时如何被使用、起到什么作用**
-- 说明每个特征的可逆性和重建价值
-- 说明每个特征如何用于学习、复用和建构全新内容
-- 记录工具选择理由和使用经验
-- **确认所有特征值文件都已实际生成**(实质维度的.png图片、形式/全局维度的图片或json)
-
----
-
-## 第四步:处理下一个亮点
-
-重复第一步至第三步,处理下一个亮点,直到所有亮点都处理完成。
-
----
-
-## 第五步:生成整合报告
-
-所有亮点处理完成后,生成整合报告:
-
-**内容**:
-- 处理的亮点总数和列表
-- 每个亮点提取的维度汇总
-- 所有特征值的文件清单
-- 整体评估:
-  - 所有亮点的特征是否能够完整还原原图
-  - 特征之间是否存在冗余或遗漏
-  - 整体的可逆性和可复用性评估
-- 建议和改进方向
-
----
-
-# 三、核心原则
-
-## 解构原则
-
-**亮点驱动**:
-- 亮点数据是图片表现力的核心
-- 筛选维度时重点参考亮点
-- 对高权重段落细致处理
-
-**可逆性优先**:
-- 优先选择可逆性强的维度
-- 特征应该是生成模型友好的控制信号
-- 避免信息损失过大的表示
-- **避免提取与原图过于相似的特征**:特征应该是抽象的、可复用的
-
-**价值导向**:
-- 特征不仅用于还原,更要用于学习、复用和建构全新内容
-- 为了还原而还原没有价值
-- 优先提取具有泛化能力和创造性价值的特征
-
-**适度解构**:
-- 维度数量适中,且相互独立
-- 避免过度细分或过度简化
-- 若已有维度可以表达目标语义,不新增维度
-- 新维度必须给出必要性说明
-- 根据图片组的复杂度灵活调整
-
-**一致性保证**:图片组中重复实质保持一致表示(骨架比例、主色调、空间关系)
-
-**过程验证**:对每个中间结果进行评估和验证
-
----
-
-## 质量要求
-
-**禁止降级**:不使用效果显著更差的简单方案
-
-**禁止平凡表示**:必须使用多模态特征,不只提供自然语言描述
-
-**禁止保存原图**:不保存原图或其任何部分(裁剪、截图、抠图)
-- 实质维度 → 标准化素材(去除形式信息)
-- 形式维度 → 特征可视化(深度图、mask、骨架等)
-- 全局维度 → 控制信号可视化(光照图、色彩分布等)
-- 所有特征必须抽象、可复用、可迁移
-
----
-
-## 还原与创造说明
-
-还原agent将获得:更新的制作表 + 各维度特征文件
-
-还原方式:以生成式模型为主,使用特征作为控制信号重建图片
-
-**核心价值**:特征不仅用于还原原图,更要用于学习规律、复用特征、建构全新内容
-
----
-
-## Subagent输入JSON格式
-
-**dimension_research输入**:
-```json
-{
-  "highlight_id": "...",
-  "highlight_description": "...",
-  "highlight_type": "实质/形式/全局",
-  "image_dimension": "...",
-  "image_dimension_description": "...",
-  "goal": "为该图片维度寻找适合的特征维度(Control Signals)"
-}
-```
-
-**tool_research输入**:
-```json
-{
-  "dimensions": ["dimension1", "dimension2"]
-}
-```
-
----
-
-# 开始执行
-
-请根据上述原则,灵活分析 `input/` 目录下的数据,完成多模态特征的筛选和提取工作。
+# 核心任务
+根据提取需求特征 -> 寻找知识,确定提取模态、样式 -> 寻找工具与工具用法 —> 使用工具,将目标提取出来
+当前,特征以“制作表”和“提取需求”形式给出。你需要根据我的提取需求,将对应的模态提取出来。
+
+## 输入与核心理念
+- 输入源:`examples/find knowledge/input` 目录下的原始图片、制作表文本、提取需求数据。使用 read file 查看图片;对于我的提取需求,虽然制作表存在对应的文字描述,但当前文字描述可能不精准
+- 终极目标:构建支持“无损还原与高自由度改写”的特征空间。提取的维度必须是生成模型友好的控制信号,且强制遵循原子化解耦原则。严禁提取会导致全局死锁的整体特征;多模态信号必须按实体独立剥离,确保未来能对任何单一模块进行独立替换与重组。
+
+策略 B【不重绘型提取】(如:特定排版元素等):
+尽量不使用类似nanobanana 工具的重绘,而是使用的抠图工具;
+分离准则:必须实现绝对的背景剥离(如:只提取纯净的文字图层,彻底剔除背景)。
+此类实体的提取目的为**“即插即用的直接复用”**。绝对禁止“重绘”!必须保留其原生的笔触、质感与精确像素形态。
+
+# 执行SOP
+**步骤一:需求理解**
+- **理解维度**:
+  - **【条件】**:基于图片、制作表的已知信息,但不包含原始文字描述,例如:如果目标是,人物,那么已经信息是,几个图里有人物,这些人物分别是什么姿态
+  - **【目的】**:实质的目的是找到能一致性(图集的角度),形式的目的是和原图一样的高表现力。
+- **输出结果**:完成这个步骤并输出你的结果到/knowledge 文件
+- 注意这个环节,你只专注需求,不要涉及工具与提取模态
+
+**步骤二:案例驱动的知识检索**
+- 通过sub agent工具调用子agent进行搜索
+- 在公众号(gzh)进行广泛搜索。
+- 搜索目标:创作者如何还原此类图片需求的真实用例。
+- 优先寻找近半年的用例,注意先确认当前日期
+- 如果一个工具连续失败三次,则放弃该渠道。
+- 输出结果报告:包含你的检索策略、找到的案例、参考URL
+
+**步骤三:制定多模态特征提取策略**
+- 结合知识、决定提取哪些具体的特征维度?应该提取什么样式的
+- 提取策略约束
+  - 约束1(形式提取):对于形式相关的亮点,绝对禁止保存原图本身。
+  - 约束2(形式特征的模态选择):并非所有“形式”都需要视觉多模态。如果通知某些形式用文字就能完美控制,则允许使用纯文本模态,但必须调用专业工具提取极度专业的描述,且必须经过严格的图文一致性评估。禁止使用宽泛的自然语言。
+  - 约束3(解构的认知顺序):一个需求,不一定只匹配一个特征;(比如人物的形象和姿势)元素的解构必须符合生成式模型的底层特征堆叠逻辑,遵循“从全局基质到局部变量”的单向原则。特征提取必须严格按照从无到有的构建树进行:先锁定恒定不变的实体基座,其次绑定依附于实体的属性资产,最后再解析调度性的动作与环境场信号。预处理层级必须先于编辑组合层级,严禁逻辑倒置。
+
+**步骤四:专业工具链调用与执行**
+4.1 寻找工具
+针对当前需要提取的特征维度,你需要去寻找的工具。
+来源要求:无论是通过外部搜索(如 GitHub、HuggingFace、PyPI、专业学术平台),还是检索你 LLM 自身储备的专家知识,都必须明确展示你找到了哪些候选工具。
+- 通过sub agent工具调用子agent进行搜索
+- 通过 browser use进行搜搜
+- **工具寻找策略**:在筛选特征提取工具时,必须采用高标准,优先寻找符合以下特征的工具:
+  1. 最新的工具。
+  2. 更智能:优先选择智能的工具,而非传统工具。
+  3. 更通用:能够覆盖多种泛化场景的工具。
+约束4(实质提取):
+策略 A【重绘型提取】(如:人物、复杂3D物品等):
+鉴于此类实体在原图中常存在遮挡、截断或视角局限,需结合多原图作为参考,通过精准的 Prompt 引导进行智能提取与补全。最后需要统一调用 nanobanana 工具提取底层素材资产。
+分离准则:必须实现绝对的背景剥离(如:只提取纯净的人物主体,彻底剔除环境与无关交互物)。
+重绘目标的目的:
+① 资产完整化(修复遮挡部位,或将多角度特征整合为类似“3D建模三视图”的无死角素材,使其更符合AIGC生图逻辑);
+② 特征解耦(将角色的“基础形象特征”与其当前的“临时姿势”彻底剥离)。
+③ 非必要不修改原则:对遮挡部位进行修复时,优先保留图像中已存在、无遮挡的原始特征,仅对被遮挡区域做补全;若无明确必要,不得对未遮挡部分做任何改动、重绘或风格偏移,确保原始信息完整、不被过度修正。
+输出要求:列出候选工具清单及它们的背景来源。
+
+4.2 工具知识解析
+深入解析你选中的主要工具:它具体是怎么用的?有什么真实的用例?
+输出要求:详细说明该工具的具体用法
+
+4.3 工具的接入与部署
+通过 browser use 使用该工具或者执行终端命令进行环境部署,如果需要登录等行为,向我发出请求
+
+4.4 工具执行与结果校验
+运行 4.3 部署好的工具,从 examples/find knowledge//input 目录的原始图片中提取具体的特征值。每个维度生成独立的标准化输出。
+强制一致性校验(核心防错):绝不能盲目信任工具的输出!必须对工具返回的结果进行二次逻辑核对(例如:工具返回的 bounding box 坐标是否越界?抠图结果是否干净?提取的文本是否与画面一致?)。
+评估工具禁止使用 nanobanana。
+如果发现结果不准确、,必须直接废弃结果,并返回 4.1 重新找工具,或返回 4.3 调整工具参数。
+输出要求:展示最终成功提取的具体特征值。
+
+
+**步骤五:严密挂载与结果评估**
+- 将提取到的特征严格关联回“制作表”的具体段落。
+- **自我评估**:在写入最终文件前,必须进行模拟沙盘推演:“如果把这个特征文件交给生成模型,它真的能还原出制作表里描述的那个实质亮点吗?”如果评估为否,需返回步骤三重新调整。
+
+
+**步骤六:输出结果**
+- 最终输出一份完整的研究报告,总结应该提取哪些多模态维度,提取结果是什么?如果没找到工具,预期是什么?
+- **特征提取工具链**:必须使用专业工具从图片中提取多模态特征维度的值
+- **特征文件组织结构**:每个维度单独建一个文件夹 
+  - 文件夹内包含:
+    - 具体的特征值文件(图片格式如 .png 或数值格式如 .json)
+    - mapping.json 文件,记录该维度与制作表的对应关系(哪个图片、哪个段落、实质/形式、哪个特征)
+  - 示例结构:output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括:多模态特征维度-维度值:图片-段落-实质/形式-特征(包含整条路径)
+- 筛选得到的多模态值需要与制作表对应,具体到某一个段落,实质或形式下的具体特征。
+- 所有的结果、报告放到:examples/find knowledge/knowledge文件夹下,对于提取结果,除了输出结果,还需要输出使用的提取工具(即便是文本,也要说明是使用什么工具提取的文本)