# 选题生成方法对比分析

## 文档对比
- **create_process_v4.md**: 基于图数据库游走的选题推导
- **topic_build_agent_prompt.md**: 基于频繁项集挖掘的选题构建

---

## 核心差异对比

### 1. 数据基础与方法论

#### create_process_v4.md (图数据库游走)
- 基于**图数据库**，通过节点和边的关系进行游走
- 数据来源：人设常量点 + 分类路径（class_path）+ 点（point）
- 方法：BFS广度优先遍历，从起始常量点出发，通过关联边逐步扩展
- 核心操作：横向关联、向上抽象、向下展开

#### topic_build_agent_prompt.md (频繁项集挖掘)
- 基于**Pattern Mining（FP-Growth算法）**的频繁项集结果
- 数据来源：社交媒体帖子的结构化分析 + 元素共现关系
- 方法：推导图谱（DAG），从种子元素通过数据证据逐步推导
- 核心操作：共现探索、层级泛化/特化、跨维度关联

---

### 2. 推导策略

#### create_process_v4.md
**游走方法：**
- 横向关联：search_relation_class_by_class
- 向上抽象：search_class_by_point
- 向下展开：search_point_by_class

**策略特点：**
- LLM自主选择游走方法
- 全局TopK剪枝（每轮保留TOP_K_PATHS条路径）
- 避免路径循环（不允许重复节点）
- 路径独立性（各路径独立探索）

#### topic_build_agent_prompt.md
**推导类型：**
- itemset_co_pattern：项集内共现
- co_occurrence：帖子级共现
- hierarchy_generalize/specialize：分类泛化/特化
- post_content_extract：从帖子提取
- demand_input：用户需求输入

**策略特点：**
- 每步必须有数据证据支撑
- 因果链完整（每个节点可追溯到种子）
- 每步一个动作（不堆砌多个元素）
- 禁止凭空联想

---

### 3. 路径/图谱结构

#### create_process_v4.md - 路径结构
```json
{
  "名称": "懒人妻子",
  "类型": "灵感点/目的点/关键点",
  "维度": "实质/形式/意图",
  "分类": "point / class",
  "来源": "上一个节点名称",
  "游走方法": "横向关联/向上抽象",
  "推理": "选择该方法的原因"
}
```
- 线性路径结构（数组）
- 强调路径连续性
- 每条路径只有一个起始常量点

#### topic_build_agent_prompt.md - 图谱结构
**节点：CompositionItem**
- item_level: category（分类）/ element（具体元素）
- dimension: 实质/形式/意图
- category_path: 分类归属

**边：DerivationLink**
- link_type: 推导关系类型
- evidence_type + evidence_detail: 数据证据
- derived_from: 来源节点ID

特点：
- DAG图结构（有向无环图）
- 强调数据证据
- 区分分类层和元素层

---

### 4. 执行流程对比

| 阶段 | create_process_v4.md | topic_build_agent_prompt.md |
|------|---------------------|---------------------------|
| **初始化** | 提取人设常量点 → 为每个常量点创建初始路径 | 理解执行概况 → 获取分类树和组合模式 |
| **核心推导** | 多轮循环游走（MAX_ROUNDS轮）<br>- 选择游走方法<br>- 执行游走<br>- 构建候选路径<br>- 评估与全局TopK剪枝 | 逐步推导（不限轮次）<br>- 创建种子（只放起点）<br>- 逐步add_derivation_step<br>- 每步一个动作，必须有数据证据 |
| **终止条件** | loop >= MAX_ROUNDS 或 无法继续扩展 | 推导图谱完整，满足质量标准 |
| **输出生成** | 每条路径 → 一个选题<br>选题数量 = TOP_K_PATHS | 从活跃元素构建选题<br>必须满足两层完整（category + element） |

---

### 5. 选题生成差异

#### create_process_v4.md
**一对一映射：**
- 每条路径 → 一个选题
- 禁止路径融合
- 选题是5-8句话的完整创作指导
- 包含：主题、灵感展开、形式呈现、目的效果

**输出内容：**
- 选题（完整创作指导）
- 点组合（所有具体点）
- 完整路径（详细游走信息）
- 预期效果
- 推理过程

#### topic_build_agent_prompt.md
**从图谱提炼：**
- title：核心主题
- description：选题方向
- content_direction：具体创作方向
- target_audience：目标受众

**质量标准：**
- 两层完整（category + element）
- 至少覆盖实质+形式两个维度
- 推理链 ≥ 3步
- 无孤立联想（每条边有数据证据）

---

### 6. 关键约束对比

| 约束类型 | create_process_v4.md | topic_build_agent_prompt.md |
|---------|---------------------|---------------------------|
| **数据依据** | 图数据库关系（class关联、点归属） | 频繁项集、共现数据、分类层级 |
| **推导自由度** | LLM自主选择游走方法 | 必须有数据证据，禁止凭空联想 |
| **路径/图完整性** | 路径连续性（每个节点来源于上一节点） | 因果链完整（每个节点可追溯到种子） |
| **循环控制** | 禁止路径中重复节点 | DAG结构天然无环 |
| **输出数量** | 固定 = TOP_K_PATHS | 不固定，满足质量标准即可 |

---

### 7. 适用场景分析

#### create_process_v4.md 更适合：
- 已有明确人设体系和分类结构
- 需要批量生成固定数量选题
- 强调从人设出发的创作一致性
- 路径探索型任务（发现新的组合可能）

#### topic_build_agent_prompt.md 更适合：
- 基于历史数据挖掘热门模式
- 需要数据驱动的选题验证
- 强调选题的数据支撑和可落地性
- 用户需求驱动型任务（从具体需求推导）

---

### 8. 技术实现差异

#### create_process_v4.md
- **工具**：4个图数据库查询工具
- **状态管理**：current_paths + discarded_paths + edges_to_expand
- **评估**：矛盾检测 + 人设风格匹配
- **剪枝**：全局TopK（所有候选路径竞争）

#### topic_build_agent_prompt.md
- **工具**：10+个数据挖掘相关工具（get_execution_summary, search_elements, create_topic_seed, add_derivation_step等）
- **状态管理**：推导图谱（节点+边）+ 活跃/非活跃标记
- **评估**：数据证据验证 + 两层完整性检查
- **优化**：deactivate移除不合适元素

---

## 核心区别总结

### 范式差异

| 维度 | create_process_v4.md | topic_build_agent_prompt.md |
|------|---------------------|---------------------------|
| **核心范式** | 探索式游走 | 证据式推导 |
| **起点** | 人设常量点 | 用户需求/频繁模式 |
| **推导依据** | 图结构关系 | 数据共现证据 |
| **输出特点** | 创意发散，路径多样 | 数据支撑，可验证 |
| **质量保证** | 人设风格一致性 | 数据证据完整性 |

### 方法论对比

**create_process_v4.md：探索式游走**
- 从人设出发，通过图结构探索可能的内容组合
- 强调创意发散和路径多样性
- 适合内容创新和人设一致性维护

**topic_build_agent_prompt.md：证据式推导**
- 从数据出发，通过频繁模式和共现关系构建选题
- 强调可验证性和落地性
- 适合数据驱动的选题优化和验证

---

## 互补使用建议

两种方法可以形成完整的选题生成流程：

1. **发散阶段**：使用 create_process_v4.md 进行创意探索
   - 从人设出发，生成多样化的选题路径
   - 发现新的元素组合可能性

2. **验证阶段**：使用 topic_build_agent_prompt.md 进行数据验证
   - 检查选题是否有数据支撑
   - 优化选题的可落地性

3. **迭代优化**：
   - 将验证通过的选题反馈到图数据库
   - 将探索发现的新组合补充到频繁项集
   - 形成数据和创意的双向增强

---

## 技术架构建议

```
用户需求
    ↓
┌─────────────────────────────────┐
│  方法选择                        │
│  - 人设驱动 → create_process_v4 │
│  - 数据驱动 → topic_build       │
└─────────────────────────────────┘
    ↓
┌─────────────────────────────────┐
│  选题生成                        │
│  - 图游走 / 推导图谱             │
└─────────────────────────────────┘
    ↓
┌─────────────────────────────────┐
│  交叉验证                        │
│  - 图游走结果 → 数据证据验证     │
│  - 推导图谱 → 人设一致性检查     │
└─────────────────────────────────┘
    ↓
最终选题输出
```

---

生成时间：2026-03-19