| 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218 |
- ---
- model: sonnet-4.6
- temperature: 0.3
- ---
- $system$
- 你是面向可逆特征建模的多模态分析专家。你的核心目标是:构建可逆的多模态特征空间,使生成模型能够基于特征重建原始图片。生成模型可以是任何AI模型或工具。
- $user$
- # 任务目标
- 从 `input/` 目录中分析:
- - 原始图片
- - 制作表(包含"实质/形式"结构)
- - 亮点 JSON 数据
- - 制作点数据(包含实质结果,记录了图片组中反复出现的元素)
- **核心目的**:筛选并提取多模态特征维度,使其成为生成模型友好的控制信号。这些特征不仅用于还原图像,更重要的是用于学习、复用和建构全新内容。
- ---
- # 一、核心概念
- ## 1. 多模态特征维度
- 多模态特征维度是图像在某一独立信息子空间中的表示:
- - 不包含原始像素
- - 可由专业工具提取
- - 可独立存储和组合
- - 理论上可参与图像重构
- - **必须是生成模型友好的控制信号**
- **表示形式**:
- - 数值形式:JSON
- - 图像形式:PNG/NPY
- - 语言形式:自然语言的描述
- ## 2. 实质/形式双层模型
- 所有特征必须明确归属为"实质"或"形式":
- **实质(Substance)**:
- - 定义:图像中的某一个物体本身
- - 例如:一个人物、一个建筑、一个物品
- - 制作点实质结果中记录了图片组中多次出现的重要实质
- **形式(Form)**:
- - 定义:实质的各种属性,或图像整体的属性
- - 作用于实质的形式:物体的颜色、姿态、材质、光照等
- - 作用于图像整体的形式:构图、整体色调、风格等
- - 注意:即使某个形式(如构图)不属于任何具体实质,如果需要也要提取
- **基本规则**:先识别实质(物体本身),再推导形式(物体的属性)。
- ---
- # 二、工作流程
- ## 第一步:筛选维度
- ### 1. 分析输入数据
- - 查看原始图片,理解图片组的整体特征
- - 阅读制作表,理解实质/形式结构
- - **重点关注亮点数据**:亮点是图片表现力的核心
- - **重点关注制作点实质结果**:记录了图片组中反复出现的元素
- ### 2. 识别实质
- - 确认核心实质(图片中的物体本身)
- - **制作点实质结果中反复出现的元素具有优先级**:这些元素本身就是具有一致性要求的实质
- - 输出实质列表
- ### 3. 推导或匹配形式
- - 为每个实质推导或匹配对应的形式(与制作表/亮点进行匹配)
- - 识别图像整体的形式(如构图),如果对还原有帮助,即使不属于具体实质也要考虑
- - 输出形式列表
- ### 4. 搜索还原经验
- - 搜索其他人使用生成模型还原图像的经验,并保存在knowledge中
- - 了解哪些特征维度对生成模型更友好
- - 评估搜索结果,如果不够好需要调整关键词继续搜索
- - 广泛收集信息,目标平台尽可能多,知识有相关性即可保存,用于指导之后的维度筛选
- - 将研究过程和发现保存在 `knowledge/restoration_experience/` 目录,保留原始URL
- ### 5. 筛选多模态维度
- - 为每个实质筛选合适的多模态维度
- - 为每个形式筛选合适的多模态维度
- - 优先选择可逆性强、生成模型友好的维度
- - **前瞻性思考**:筛选时就要考虑每个特征在还原中如何被使用、起到什么作用
- - **避免过度相似**:不要提取与原图过于相似的特征(如深度图),因为为了还原而还原没有价值,特征应该能用于学习、复用和建构全新内容
- ## 第二步:提取特征值
- ### 1. 知识研究
- **搜索工具**:
- - 在内容平台广泛搜索专业工具
- - 可以先大量地搜索相关知识后筛选
- - 深入研究工具使用方法,不要浅尝辄止
- - 根据搜索结果评估query关键词,如果不够好需要调整关键词继续搜索
- - 将研究过程和发现保存在 `knowledge/tools/` 目录,保留原始URL
- ### 2. 工具选择
- **评估标准**:
- - 发布时间:优先近期更新的工具(建议先确定当前时间,再判断工具是否近期更新)
- - 是否支持多模态处理
- - 是否支持批量处理
- - 是否支持API或可编程调用
- **选择建议**:
- - 优先选择更新、更通用、更多人使用或推荐的工具
- ### 3. 特征提取
- **提取过程**:
- - 使用专业工具提取特征值
- - 每个维度单独建立文件夹:`output/features/维度名称/`
- **文件组织**:
- - 特征值文件(.png 或 .json)
- - mapping.json(记录维度与制作表的对应关系)
- **mapping.json 格式示例**:
- ```json
- {
- "dimension": "depth_map",
- "mappings": [
- {
- "file": "img_1_segment_1.png",
- "source_image": "input/img_1.jpg",
- "segment": 1,
- "category": "实质",
- "feature": "空间深度结构"
- }
- ]
- }
- ```
- **对应关系**:
- - 特征值必须与制作表精确对应
- - **必须与特定的一个或几个特征关联**,不能模糊处理,更不能只关联到亮点
- - **根据真实key串联完整路径**:从段落 → ... → 最后一层特征,确定提取到的多模态特征值属于谁
- - 如果是实质,直接关联到段落本身
- ### 4. 输出研究报告
- - 总结筛选了哪些多模态维度及原因
- - **明确每个特征在还原中如何被使用、起到什么作用**
- - 说明每个特征的可逆性和重建价值
- - 说明每个特征如何用于学习、复用和建构全新内容
- - 记录工具选择理由和使用经验
- - 单独生成一份报告,记录每次搜索的关键词、策略,以及得到的结果
- ---
- # 三、核心原则
- ## 解构原则
- **亮点驱动**:
- - 亮点数据是图片表现力的核心
- - 筛选维度时重点参考亮点
- - 对高权重段落细致处理
- **可逆性优先**:
- - 优先选择可逆性强的维度
- - 特征应该是生成模型友好的控制信号
- - 避免信息损失过大的表示
- - **避免提取与原图过于相似的特征**:特征应该是抽象的、可复用的,而不是原图的复制
- **价值导向**:
- - 特征不仅用于还原,更要用于学习、复用和建构全新内容
- - 为了还原而还原没有价值
- - 优先提取具有泛化能力和创造性价值的特征
- **适度解构**:
- - 维度数量适中(建议6-10个)
- - 避免过度细分或过度简化
- - 根据图片组的复杂度灵活调整
- **复用优先**:
- - 若已有维度可以表达目标语义,不新增维度
- - 新维度必须给出必要性说明
- **一致性保证**(针对图片组):
- - 若图片组中存在重复实质,保持一致的表示方式
- - 例如:相同骨架比例、相同主色调范围、相同空间比例关系
- - 一致性优先级高于创意优先级
- ## 质量要求
- **禁止降级解决**:
- - 不允许为了方便而使用效果显著更差的简单方案
- **禁止平凡表示**:
- - 不允许只提供自然语言描述
- - 必须使用多模态提供超越语言的信息
- **禁止保存原始图片**:
- - 图片裁剪只能作为中间步骤
- - 最终必须提取多模态特征
- ---
- # 四、还原与创造说明
- 最终,负责还原的agent将获得:
- - 更新的制作表(包含多模态维度和值)
- - 各维度的特征文件
- 还原agent将以生成式模型为主,使用这些特征作为控制信号重建图片。
- **更重要的是**:这些特征不仅用于还原原图,更要用于学习规律、复用特征、建构全新内容。因此,特征应该具有泛化能力和创造性价值,而不是原图的简单复制。
- ---
- # 开始执行
- 请根据上述原则,灵活分析 `input/` 目录下的数据,完成多模态特征的筛选和提取工作。
|