|
|
@@ -4,40 +4,215 @@ temperature: 0.3
|
|
|
---
|
|
|
|
|
|
$system$
|
|
|
-你是最顶尖的AI助手,擅长图像分析和特征提取研究。你可以调用工具逐步解决复杂问题。
|
|
|
+你是面向可逆特征建模的多模态分析专家。你的核心目标是:构建可逆的多模态特征空间,使生成模型能够基于特征重建原始图片。生成模型可以是任何AI模型或工具。
|
|
|
|
|
|
$user$
|
|
|
-我的任务是:从一组图片中提取特征,构建一个可逆的特征空间,再从这些特征还原得到原先的图片组,以验证特征的有效性。
|
|
|
-目前的问题:特征以制作表和亮点数据的形式给出,但制作表只包含文字信息,有一些特征需要用多模态的特征,但我们无法筛选出需要的维度。
|
|
|
-我需要你帮我:
|
|
|
- 1.根据输入的原始图片、制作表和得到的亮点 JSON 数据,判断需要哪些多模态维度
|
|
|
- 2.根据得到的维度,提取到具体的值,更新制作表(不需要完整更新,只需要将得到的特征值和制作表关联即可)
|
|
|
-多模态特征维度(Multimodal Feature Dimension)是指图像在某一独立信息子空间中的结构化投影表示。
|
|
|
-- 该表示:不包含原始像素,可由算法或模型等工具提取,可独立存储,可与其他维度组合,在理论上可参与图像重构。最终目标是根据多模态特征还原图片
|
|
|
-- 比如:几何结构表示(如三视图、深度结构等)、颜色统计表示(如色彩分布向量)、边缘与轮廓表示(如线性结构图)**仅仅作为参考,具体情况应具体分析
|
|
|
-- **特征表示形式**:可以是数值形式(JSON)或图像形式(PNG/NPY),如深度图、边缘图、分割图、法线图等
|
|
|
-
|
|
|
-**还原过程说明**:
|
|
|
-- 最终,负责还原的agent将获得更新的制作表,包括多模态维度和值,以生成式模型为主,从特征还原图片
|
|
|
+# 任务目标
|
|
|
+
|
|
|
+从 `input/` 目录中分析:
|
|
|
+- 原始图片
|
|
|
+- 制作表(包含"实质/形式"结构)
|
|
|
+- 亮点 JSON 数据
|
|
|
+- 制作点数据(包含实质结果,记录了图片组中反复出现的元素)
|
|
|
+
|
|
|
+**核心目的**:筛选并提取多模态特征维度,使其成为生成模型友好的控制信号。这些特征不仅用于还原图像,更重要的是用于学习、复用和建构全新内容。
|
|
|
+
|
|
|
+---
|
|
|
+
|
|
|
+# 一、核心概念
|
|
|
+
|
|
|
+## 1. 多模态特征维度
|
|
|
+
|
|
|
+多模态特征维度是图像在某一独立信息子空间中的表示:
|
|
|
+- 不包含原始像素
|
|
|
+- 可由专业工具提取
|
|
|
+- 可独立存储和组合
|
|
|
+- 理论上可参与图像重构
|
|
|
+- **必须是生成模型友好的控制信号**
|
|
|
+
|
|
|
+**表示形式**:
|
|
|
+- 数值形式:JSON
|
|
|
+- 图像形式:PNG/NPY
|
|
|
+- 语言形式:自然语言的描述
|
|
|
+
|
|
|
+## 2. 实质/形式双层模型
|
|
|
+
|
|
|
+所有特征必须明确归属为"实质"或"形式":
|
|
|
+
|
|
|
+**实质(Substance)**:
|
|
|
+- 定义:图像中的某一个物体本身
|
|
|
+- 例如:一个人物、一个建筑、一个物品
|
|
|
+- 制作点实质结果中记录了图片组中多次出现的重要实质
|
|
|
+
|
|
|
+**形式(Form)**:
|
|
|
+- 定义:实质的各种属性,或图像整体的属性
|
|
|
+- 作用于实质的形式:物体的颜色、姿态、材质、光照等
|
|
|
+- 作用于图像整体的形式:构图、整体色调、风格等
|
|
|
+- 注意:即使某个形式(如构图)不属于任何具体实质,如果需要也要提取
|
|
|
+
|
|
|
+**基本规则**:先识别实质(物体本身),再推导形式(物体的属性)。
|
|
|
+
|
|
|
+---
|
|
|
+
|
|
|
+# 二、工作流程
|
|
|
+
|
|
|
+## 第一步:筛选维度
|
|
|
+
|
|
|
+### 1. 分析输入数据
|
|
|
+- 查看原始图片,理解图片组的整体特征
|
|
|
+- 阅读制作表,理解实质/形式结构
|
|
|
+- **重点关注亮点数据**:亮点是图片表现力的核心
|
|
|
+- **重点关注制作点实质结果**:记录了图片组中反复出现的元素
|
|
|
+
|
|
|
+### 2. 识别实质
|
|
|
+- 确认核心实质(图片中的物体本身)
|
|
|
+- **制作点实质结果中反复出现的元素具有优先级**:这些元素本身就是具有一致性要求的实质
|
|
|
+- 输出实质列表
|
|
|
+
|
|
|
+### 3. 推导或匹配形式
|
|
|
+- 为每个实质推导或匹配对应的形式(与制作表/亮点进行匹配)
|
|
|
+- 识别图像整体的形式(如构图),如果对还原有帮助,即使不属于具体实质也要考虑
|
|
|
+- 输出形式列表
|
|
|
+
|
|
|
+### 4. 搜索还原经验
|
|
|
+- 搜索其他人使用生成模型还原图像的经验,并保存在knowledge中
|
|
|
+- 了解哪些特征维度对生成模型更友好
|
|
|
+- 评估搜索结果,如果不够好需要调整关键词继续搜索
|
|
|
+- 广泛收集信息,目标平台尽可能多,知识有相关性即可保存,用于指导之后的维度筛选
|
|
|
+- 将研究过程和发现保存在 `knowledge/restoration_experience/` 目录,保留原始URL
|
|
|
+
|
|
|
+### 5. 筛选多模态维度
|
|
|
+- 为每个实质筛选合适的多模态维度
|
|
|
+- 为每个形式筛选合适的多模态维度
|
|
|
+- 优先选择可逆性强、生成模型友好的维度
|
|
|
+- **前瞻性思考**:筛选时就要考虑每个特征在还原中如何被使用、起到什么作用
|
|
|
+- **避免过度相似**:不要提取与原图过于相似的特征(如深度图),因为为了还原而还原没有价值,特征应该能用于学习、复用和建构全新内容
|
|
|
+
|
|
|
+## 第二步:提取特征值
|
|
|
+
|
|
|
+### 1. 知识研究
|
|
|
+
|
|
|
+**搜索工具**:
|
|
|
+- 在内容平台广泛搜索专业工具
|
|
|
+- 可以先大量地搜索相关知识后筛选
|
|
|
+- 深入研究工具使用方法,不要浅尝辄止
|
|
|
+- 根据搜索结果评估query关键词,如果不够好需要调整关键词继续搜索
|
|
|
+- 将研究过程和发现保存在 `knowledge/tools/` 目录,保留原始URL
|
|
|
+
|
|
|
+### 2. 工具选择
|
|
|
+
|
|
|
+**评估标准**:
|
|
|
+- 发布时间:优先近期更新的工具(建议先确定当前时间,再判断工具是否近期更新)
|
|
|
+- 是否支持多模态处理
|
|
|
+- 是否支持批量处理
|
|
|
+- 是否支持API或可编程调用
|
|
|
+
|
|
|
+**选择建议**:
|
|
|
+- 优先选择更新、更通用、更多人使用或推荐的工具
|
|
|
+
|
|
|
+### 3. 特征提取
|
|
|
+
|
|
|
+**提取过程**:
|
|
|
+- 使用专业工具提取特征值
|
|
|
+- 每个维度单独建立文件夹:`output/features/维度名称/`
|
|
|
+
|
|
|
+**文件组织**:
|
|
|
+- 特征值文件(.png 或 .json)
|
|
|
+- mapping.json(记录维度与制作表的对应关系)
|
|
|
+
|
|
|
+**mapping.json 格式示例**:
|
|
|
+```json
|
|
|
+{
|
|
|
+ "dimension": "depth_map",
|
|
|
+ "mappings": [
|
|
|
+ {
|
|
|
+ "file": "img_1_segment_1.png",
|
|
|
+ "source_image": "input/img_1.jpg",
|
|
|
+ "segment": 1,
|
|
|
+ "category": "实质",
|
|
|
+ "feature": "空间深度结构"
|
|
|
+ }
|
|
|
+ ]
|
|
|
+}
|
|
|
+```
|
|
|
+
|
|
|
+**对应关系**:
|
|
|
+- 特征值必须与制作表精确对应
|
|
|
+- **必须与特定的一个或几个特征关联**,不能模糊处理,更不能只关联到亮点
|
|
|
+- **根据真实key串联完整路径**:从段落 → ... → 最后一层特征,确定提取到的多模态特征值属于谁
|
|
|
+- 如果是实质,直接关联到段落本身
|
|
|
+
|
|
|
+### 4. 输出研究报告
|
|
|
+- 总结筛选了哪些多模态维度及原因
|
|
|
+- **明确每个特征在还原中如何被使用、起到什么作用**
|
|
|
+- 说明每个特征的可逆性和重建价值
|
|
|
+- 说明每个特征如何用于学习、复用和建构全新内容
|
|
|
+- 记录工具选择理由和使用经验
|
|
|
+- 单独生成一份报告,记录每次搜索的关键词、策略,以及得到的结果
|
|
|
+
|
|
|
+---
|
|
|
+
|
|
|
+# 三、核心原则
|
|
|
+
|
|
|
+## 解构原则
|
|
|
+
|
|
|
+**亮点驱动**:
|
|
|
+- 亮点数据是图片表现力的核心
|
|
|
+- 筛选维度时重点参考亮点
|
|
|
+- 对高权重段落细致处理
|
|
|
+
|
|
|
+**可逆性优先**:
|
|
|
+- 优先选择可逆性强的维度
|
|
|
- 特征应该是生成模型友好的控制信号
|
|
|
+- 避免信息损失过大的表示
|
|
|
+- **避免提取与原图过于相似的特征**:特征应该是抽象的、可复用的,而不是原图的复制
|
|
|
+
|
|
|
+**价值导向**:
|
|
|
+- 特征不仅用于还原,更要用于学习、复用和建构全新内容
|
|
|
+- 为了还原而还原没有价值
|
|
|
+- 优先提取具有泛化能力和创造性价值的特征
|
|
|
+
|
|
|
+**适度解构**:
|
|
|
+- 维度数量适中(建议6-10个)
|
|
|
+- 避免过度细分或过度简化
|
|
|
+- 根据图片组的复杂度灵活调整
|
|
|
+
|
|
|
+**复用优先**:
|
|
|
+- 若已有维度可以表达目标语义,不新增维度
|
|
|
+- 新维度必须给出必要性说明
|
|
|
+
|
|
|
+**一致性保证**(针对图片组):
|
|
|
+- 若图片组中存在重复实质,保持一致的表示方式
|
|
|
+- 例如:相同骨架比例、相同主色调范围、相同空间比例关系
|
|
|
+- 一致性优先级高于创意优先级
|
|
|
+
|
|
|
+## 质量要求
|
|
|
+
|
|
|
+**禁止降级解决**:
|
|
|
+- 不允许为了方便而使用效果显著更差的简单方案
|
|
|
+
|
|
|
+**禁止平凡表示**:
|
|
|
+- 不允许只提供自然语言描述
|
|
|
+- 必须使用多模态提供超越语言的信息
|
|
|
+
|
|
|
+**禁止保存原始图片**:
|
|
|
+- 图片裁剪只能作为中间步骤
|
|
|
+- 最终必须提取多模态特征
|
|
|
+
|
|
|
+---
|
|
|
+
|
|
|
+# 四、还原与创造说明
|
|
|
+
|
|
|
+最终,负责还原的agent将获得:
|
|
|
+- 更新的制作表(包含多模态维度和值)
|
|
|
+- 各维度的特征文件
|
|
|
+
|
|
|
+还原agent将以生成式模型为主,使用这些特征作为控制信号重建图片。
|
|
|
+
|
|
|
+**更重要的是**:这些特征不仅用于还原原图,更要用于学习规律、复用特征、建构全新内容。因此,特征应该具有泛化能力和创造性价值,而不是原图的简单复制。
|
|
|
+
|
|
|
+---
|
|
|
+
|
|
|
+# 开始执行
|
|
|
|
|
|
-**关键要求**:不能保存图片本身。图片裁剪只能作为中间步骤,最终必须从裁剪区域提取多模态特征。
|
|
|
-
|
|
|
-要求:
|
|
|
-- 分析 input/ 目录下的原始图片、制作表和对应的亮点 JSON 数据
|
|
|
-- 亮点是图片表现力的核心,筛选的维度应该重点参考亮点数据
|
|
|
-- 判断和筛选过程以先验知识作为支撑,应该在内容平台进行广泛的搜索,要深入研究,不要浅尝辄止
|
|
|
-- 将研究过程和发现保存在 knowledge/ 目录下,注意保留原始来源的 URL
|
|
|
-- 最终输出一份完整的研究报告,总结应该提取哪些多模态维度,以及为什么
|
|
|
-- **特征提取工具链**:必须使用专业工具从图片中提取多模态特征维度的值
|
|
|
- - 搜索并学习相关工具的使用方法
|
|
|
- - 使用最合适的工具提取特征
|
|
|
-- **特征文件组织结构**:每个维度单独建一个文件夹(output/features/维度名称/)
|
|
|
- - 文件夹内包含:
|
|
|
- - 具体的特征值文件(图片格式如 .png 或数值格式如 .json)
|
|
|
- - mapping.json 文件,记录该维度与制作表的对应关系(哪个图片、哪个段落、实质/形式、哪个特征)
|
|
|
- - 示例结构:output/features/depth_map/img_1_segment_1.png 和 output/features/depth_map/mapping.json。文件内部应包括:多模态特征维度-维度值:图片-段落-实质/形式-特征(包含整条路径)
|
|
|
-- 筛选得到的多模态值需要与制作表对应,具体到某一个段落,实质或形式下的具体特征。
|
|
|
-- 可以参考制作表和亮点的权重,对于权重高的段落,应该细致处理
|
|
|
-- **禁止降级解决**:不允许为了方便而使用效果显著更差的简单方案
|
|
|
-- **禁止平凡表示**:不允许只提供自然语言的特征表示,而是应该使用多模态提供超越语言的信息。
|
|
|
+请根据上述原则,灵活分析 `input/` 目录下的数据,完成多模态特征的筛选和提取工作。
|