3 miesięcy temu · 3c1b194ff0
--- a/docs/README.md
+++ b/docs/README.md
@@ -226,8 +226,6 @@ class Step:
 
				 
			
 
				 **实现**：`agent/execution/models.py:Step`
			
 
				 
			
 
				-**详细设计**：参考 [`docs/step-tree.md`](./step-tree.md)
			
 
				-
			
 
				 ---
			
 
				 
			
 
				 ## 模块详情
			
@@ -249,12 +247,12 @@ class Step:
 
				 
			
 
				 **使用示例**：`examples/subagent_example.py`
			
 
				 
			
 
				-### [Step 树与 Context 管理](./step-tree.md)
			
 
				-- Step 类型：goal、action、result、evaluation
			
 
				-- Step 状态：planned、in_progress、completed、failed、skipped
			
 
				-- 树结构：统一表达计划和执行
			
 
				-- step 工具：计划管理和进度更新
			
 
				-- Context 压缩：基于树结构的历史消息压缩
			
 
				+### [Context 管理](./context-management.md)
			
 
				+- OpenCode 方案参考：Message 管理、两阶段压缩、Sub-Agent
			
 
				+- goal 工具：线性计划管理
			
 
				+- explore 工具：并行探索-合并
			
 
				+- 回溯机制：abandon + context 压缩
			
 
				+- 数据结构：Goal Tree + 线性 Message List
			
 
				 
			
 
				 ### [工具系统](./tools.md)
			
 
				 - 工具定义和注册
			
@@ -539,9 +537,9 @@ agent/
 
				    - 需要统计分析
			
 
				    - 数量大，动态更新
			
 
				 
			
 
				-4. **不需要事件系统**
			
 
				-   - 后台场景，不需要实时通知
			
 
				-   - Trace/Step 已记录所有信息
			
 
				+4. **Context 管理：Goal + Explore 方案**
			
 
				+   - 简单工具接口，系统管理复杂性
			
 
				+   - 详见 [`docs/context-management.md`](./context-management.md)
			
 
				 
			
 
				 ---
			
 
				 
			
@@ -563,8 +561,6 @@ watch -n 0.5 cat .trace/tree.txt
 
				 
			
 
				 **实现**：`agent/execution/tree_dump.py`
			
 
				 
			
 
				-**详细说明**：参考 [`docs/step-tree.md`](./step-tree.md#debug-工具)
			
 
				-
			
 
				 ---
			
 
				 
			
 
				 ## 测试
			
@@ -595,8 +591,8 @@ GEMINI_API_KEY=xxx pytest tests/e2e/ -v -m e2e
 
				 | 概念 | 定义 | 存储 | 实现 |
			
 
				 |------|------|------|------|
			
 
				 | **Trace** | 一次任务执行 | 文件系统（JSON） | `execution/models.py` |
			
 
				-| **Step** | 执行步骤（树结构） | 文件系统（JSON） | `execution/models.py` |
			
 
				-| **Goal Step** | 计划项/目标 | Step 的一种类型 | `execution/models.py` |
			
 
				+| **Step** | 执行步骤 | 文件系统（JSON） | `execution/models.py` |
			
 
				+| **Goal** | 计划目标 | goal.json | `goal/models.py`（待实现） |
			
 
				 | **Sub-Agent** | 专门化的子代理 | 独立 Trace | `tools/builtin/task.py` |
			
 
				 | **AgentDefinition** | Agent 类型定义 | 配置文件/代码 | `subagents/` |
			
 
				 | **Skill** | 能力描述（Markdown） | 文件系统 | `memory/skill_loader.py` |
			
--- a/docs/context-comparison.md
+++ b/docs/context-comparison.md
@@ -0,0 +1,659 @@
 
				+# Context 管理方案对比分析
			
 
				+
			
 
				+> 对比 OpenCode、Codex 和 Gemini-cli 三个项目的 context 管理方案
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 一、整体架构对比
			
 
				+
			
 
				+| 维度 | **OpenCode** | **Codex** | **Gemini-cli** |
			
 
				+|------|-------------|-----------|---------------|
			
 
				+| **核心数据结构** | 线性 Message List | ContextManager (Vec<ResponseItem>) | Content[] (双版本) |
			
 
				+| **消息历史版本** | 单一版本 | 单一版本 + GhostSnapshot | 精选版本 + 完整版本 |
			
 
				+| **分层设计** | 无 | 无 | **✓ 三层**: Global → Environment → JIT |
			
 
				+| **Plan 管理** | goal.json (计划中) + plan.md (参考) | SQLite + TodoListItem | 无 Plan 机制 |
			
 
				+| **存储格式** | Storage Key-Value | JSONL + SQLite 混合 | JSON + 文本文件 |
			
 
				+| **并发控制** | 未明确 | Arc<Mutex> + 文件锁 | Promise并发限制 |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 二、Token 限制处理策略
			
 
				+
			
 
				+### 2.1 Token 估算方法
			
 
				+
			
 
				+| 项目 | 估算策略 | 精度 | 实现位置 |
			
 
				+|------|---------|------|---------|
			
 
				+| **OpenCode** | 未详细说明,引用 Prune 阈值 | 中 | - |
			
 
				+| **Codex** | **字节估算**: `bytes / 4` (1 token ≈ 4 bytes) | 低 | `truncate.rs::approx_token_count()` |
			
 
				+| **Gemini-cli** | **启发式**: ASCII (0.25), 非ASCII (1.3), 图片 (3000), PDF (25800) | 高 | `tokenCalculation.ts::estimateTokenCountSync()` |
			
 
				+
			
 
				+**关键差异**:
			
 
				+- **Codex**: 简单但快速,适合实时估算
			
 
				+- **Gemini-cli**: 更精确,区分字符类型和媒体,牺牲少量性能
			
 
				+
			
 
				+### 2.2 Token 限制阈值
			
 
				+
			
 
				+| 项目 | 限制类型 | 阈值定义 |
			
 
				+|------|---------|---------|
			
 
				+| **OpenCode** | 删除阈值 | `PRUNE_MINIMUM = 20,000`, `PRUNE_PROTECT = 40,000` |
			
 
				+| **Codex** | 模型限制 | 依赖模型配置,无固定值 |
			
 
				+| **Gemini-cli** | 压缩阈值 | 默认 **50%** 模型限制 (`DEFAULT_COMPRESSION_TOKEN_THRESHOLD = 0.5`) |
			
 
				+
			
 
				+### 2.3 截断策略
			
 
				+
			
 
				+```
			
 
				+┌─────────────────┬──────────────────────────┬─────────────────────┐
			
 
				+│    OpenCode     │         Codex            │    Gemini-cli       │
			
 
				+├─────────────────┼──────────────────────────┼─────────────────────┤
			
 
				+│ 删除旧工具输出   │ 前缀+后缀保留,中间截断    │ 反向token预算       │
			
 
				+│ 保护最近2轮turns │ 插入省略标记             │ 最近工具完整保留     │
			
 
				+│ 不删除"skill"工具│ 保证UTF-8边界完整性       │ 旧工具仅保留30行    │
			
 
				+└─────────────────┴──────────────────────────┴─────────────────────┘
			
 
				+```
			
 
				+
			
 
				+**Gemini-cli 的反向预算策略** (最独特):
			
 
				+```typescript
			
 
				+// 从最新消息往回遍历,为每条工具输出分配token预算
			
 
				+// 优先保留最近的,旧的按需截断
			
 
				+COMPRESSION_FUNCTION_RESPONSE_TOKEN_BUDGET = 50,000;
			
 
				+COMPRESSION_TRUNCATE_LINES = 30;
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 三、摘要/压缩机制
			
 
				+
			
 
				+### 3.1 压缩触发时机
			
 
				+
			
 
				+| 项目 | 触发时机 | 方式 |
			
 
				+|------|---------|------|
			
 
				+| **OpenCode** | 事后 (context满时) | 被动压缩 |
			
 
				+| **Codex** | 超过模型窗口时 | 自动压缩 |
			
 
				+| **Gemini-cli** | **主动** (达到50%阈值) + **手动** (/compress) | 混合方式 |
			
 
				+
			
 
				+### 3.2 压缩策略对比
			
 
				+
			
 
				+#### OpenCode: 两阶段压缩
			
 
				+
			
 
				+```
			
 
				+阶段1: Prune (清理旧工具输出)
			
 
				+  ├─ 从后向前遍历
			
 
				+  ├─ 跳过最后2轮
			
 
				+  ├─ 跳过已有summary的消息
			
 
				+  └─ 删除量 > PRUNE_MINIMUM 时执行
			
 
				+
			
 
				+阶段2: Full Compaction (上下文总结)
			
 
				+  ├─ 创建summary=true的assistant消息
			
 
				+  ├─ 调用"compaction"专用agent
			
 
				+  └─ 提示词: "Provide a detailed prompt for continuing..."
			
 
				+```
			
 
				+
			
 
				+#### Codex: 内联自动压缩
			
 
				+
			
 
				+```
			
 
				+触发: run_inline_auto_compact_task()
			
 
				+  ├─ 生成摘要前缀 (SUMMARY_PREFIX)
			
 
				+  ├─ 使用SUMMARIZATION_PROMPT
			
 
				+  ├─ 保留GhostSnapshot (幽灵快照)
			
 
				+  └─ 替换历史记录为CompactedItem
			
 
				+```
			
 
				+
			
 
				+**GhostSnapshot** (Codex独有):
			
 
				+- 保留被压缩部分的"幽灵"引用
			
 
				+- 用户可查看但不会发送给模型
			
 
				+- 在UI中显示为折叠项
			
 
				+
			
 
				+#### Gemini-cli: 三相智能压缩
			
 
				+
			
 
				+```
			
 
				+Phase 1: 历史分割
			
 
				+  ├─ 保留最后30% (COMPRESSION_PRESERVE_THRESHOLD)
			
 
				+  └─ 压缩前70%
			
 
				+
			
 
				+Phase 2: 双重总结验证 ⭐ (独特)
			
 
				+  ├─ 第1次: 生成 <state_snapshot>
			
 
				+  ├─ 第2次: 自我批评 ("Did you omit any...")
			
 
				+  └─ 生成改进版本或确认原版本
			
 
				+
			
 
				+Phase 3: 输出验证
			
 
				+  ├─ 检查压缩后token数 < 原token数
			
 
				+  └─ 失败则保持原历史
			
 
				+```
			
 
				+
			
 
				+**双重验证的价值**:
			
 
				+```typescript
			
 
				+// 第一次生成
			
 
				+"Generate a state snapshot of the conversation..."
			
 
				+
			
 
				+// 第二次自我批评
			
 
				+"Did you omit any specific file content, code snippets,
			
 
				+or context that might be needed later? If yes, provide
			
 
				+an improved version. If no, confirm the original."
			
 
				+```
			
 
				+
			
 
				+### 3.3 压缩结果处理
			
 
				+
			
 
				+| 项目 | 压缩失败处理 | 结果存储 |
			
 
				+|------|------------|---------|
			
 
				+| **OpenCode** | 标记为已compacted | 替换为summary message |
			
 
				+| **Codex** | 保留GhostSnapshot | CompactedItem + replacement_history |
			
 
				+| **Gemini-cli** | **回退原历史** ⭐ | 成功时替换,失败时保持原状 |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 四、存储和加载方式
			
 
				+
			
 
				+### 4.1 存储架构
			
 
				+
			
 
				+#### OpenCode (计划中)
			
 
				+```
			
 
				+.trace/{trace_id}/
			
 
				+├── goal.json          # Goal Tree (结构化plan)
			
 
				+├── messages.jsonl     # 消息记录 (含 goal_id)
			
 
				+└── meta.json          # Trace 元数据
			
 
				+```
			
 
				+
			
 
				+#### Codex
			
 
				+```
			
 
				+~/.codex/
			
 
				+├── history.jsonl                           # 全局消息历史
			
 
				+├── sessions/
			
 
				+│   ├── rollout-{timestamp}-{uuid}.jsonl    # 会话回滚文件
			
 
				+│   └── ...
			
 
				+└── state.db                                # SQLite状态数据库
			
 
				+```
			
 
				+
			
 
				+**关键特性**:
			
 
				+- **原子写入**: 使用 `O_APPEND` 标志
			
 
				+- **并发安全**: Advisory文件锁
			
 
				+- **自动清理**: 超过限制时删除旧条目 (软限制80%)
			
 
				+
			
 
				+#### Gemini-cli
			
 
				+```
			
 
				+~/.gemini/
			
 
				+├── GEMINI.md                               # 全局内存
			
 
				+├── tmp/{project_hash}/
			
 
				+│   └── chats/{session-ID}.json             # 会话记录
			
 
				+└── config.json                             # 配置
			
 
				+
			
 
				+项目根目录/
			
 
				+├── GEMINI.md                               # 环境内存
			
 
				+└── subdirs/
			
 
				+    └── GEMINI.md                           # JIT内存 (按需加载)
			
 
				+```
			
 
				+
			
 
				+**独特的三层内存系统**:
			
 
				+```
			
 
				+Tier 1: Global Memory
			
 
				+  ├─ ~/.gemini/GEMINI.md
			
 
				+  └─ 用户级别,所有会话共享
			
 
				+
			
 
				+Tier 2: Environment Memory
			
 
				+  ├─ 项目根目录的GEMINI.md
			
 
				+  ├─ 扩展提供的上下文文件
			
 
				+  └─ MCP客户端指令
			
 
				+
			
 
				+Tier 3: JIT Subdirectory Memory ⭐
			
 
				+  ├─ 访问路径时动态发现
			
 
				+  ├─ 向上遍历到项目根
			
 
				+  ├─ 向下BFS搜索 (最多200目录)
			
 
				+  └─ 避免加载不相关上下文
			
 
				+```
			
 
				+
			
 
				+### 4.2 加载策略对比
			
 
				+
			
 
				+| 项目 | 加载时机 | 策略 | 并发控制 |
			
 
				+|------|---------|------|---------|
			
 
				+| **OpenCode** | 会话启动/恢复 | 按需加载 | 未明确 |
			
 
				+| **Codex** | 启动时 | lookup(log_id, offset) | Arc<Mutex> + 文件锁 |
			
 
				+| **Gemini-cli** | **分层+JIT** ⭐ | 全局(启动) + 环境(会话) + JIT(访问) | Promise并发限制 (10/20) |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 五、Plan/Todo 机制
			
 
				+
			
 
				+### 5.1 数据结构对比
			
 
				+
			
 
				+#### OpenCode (参考方案)
			
 
				+```typescript
			
 
				+// plan.md (文本)
			
 
				+- [ ] 分析代码
			
 
				+- [x] 实现功能
			
 
				+- [ ] 测试
			
 
				+
			
 
				+// Todo.Info (结构化)
			
 
				+{
			
 
				+  id: string,
			
 
				+  content: string,
			
 
				+  status: "pending" | "in_progress" | "completed" | "cancelled",
			
 
				+  priority: "high" | "medium" | "low"
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+#### OpenCode (我们的方案 - 计划中)
			
 
				+```python
			
 
				+@dataclass
			
 
				+class Goal:
			
 
				+    id: str                    # "1", "1.1", "2"
			
 
				+    description: str
			
 
				+    status: Status             # pending | in_progress | completed | abandoned
			
 
				+    summary: Optional[str]     # done/abandon 时的总结
			
 
				+    children: List["Goal"]
			
 
				+
			
 
				+@dataclass
			
 
				+class GoalTree:
			
 
				+    mission: str
			
 
				+    current_id: Optional[str]
			
 
				+    goals: List[Goal]
			
 
				+```
			
 
				+
			
 
				+**关键特性**:
			
 
				+- **goal_id 关联**: 每条 message 记录它属于哪个 goal
			
 
				+- **增量压缩**: goal 完成/放弃时压缩相关 messages
			
 
				+- **精确回溯**: 基于 goal 的状态流转
			
 
				+
			
 
				+#### Codex
			
 
				+```rust
			
 
				+// TodoListItem in ResponseItem
			
 
				+pub struct TodoListItem {
			
 
				+    todo_list: Vec<TodoItem>,
			
 
				+}
			
 
				+
			
 
				+pub struct TodoItem {
			
 
				+    task: String,
			
 
				+    completed: bool,
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+**存储**: 作为 ResponseItem 的一部分,随对话历史一起管理
			
 
				+
			
 
				+#### Gemini-cli
			
 
				+**无专门 Plan 机制**,但有:
			
 
				+- **会话记录**: 完整的 `ConversationRecord`
			
 
				+- **目录跟踪**: `directories?: string[]` (会话中添加的目录)
			
 
				+
			
 
				+### 5.2 执行与 Plan 的关联
			
 
				+
			
 
				+| 项目 | 关联方式 | 可编辑性 | 可视化 |
			
 
				+|------|---------|---------|--------|
			
 
				+| **OpenCode (参考)** | 无结构化关联 | plan.md 可直接编辑 | 基础 |
			
 
				+| **OpenCode (计划)** | message.goal_id | 通过 goal 工具 | 增强 (树形+步骤) |
			
 
				+| **Codex** | TodoItem 在 ResponseItem 中 | 通过模型更新 | 基础 |
			
 
				+| **Gemini-cli** | - | - | - |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 六、Sub-Agent/并行探索
			
 
				+
			
 
				+### 6.1 Sub-Agent 支持
			
 
				+
			
 
				+#### OpenCode (参考方案)
			
 
				+```typescript
			
 
				+// Agent Mode
			
 
				+- primary: 主代理,执行工具
			
 
				+- subagent: 子代理,独立context
			
 
				+
			
 
				+// 内置 Sub-Agents
			
 
				+- general: 通用代理,可并行执行
			
 
				+- explore: 代码探索,仅查询工具
			
 
				+- compaction: 上下文总结
			
 
				+```
			
 
				+
			
 
				+**执行流程**:
			
 
				+```
			
 
				+1. 创建 SubtaskPart
			
 
				+2. 子代理独立处理 (独立 message list)
			
 
				+3. 结果汇总: "The following tool was executed by the user"
			
 
				+```
			
 
				+
			
 
				+#### OpenCode (我们的方案 - 计划中)
			
 
				+```python
			
 
				+@tool
			
 
				+def explore(
			
 
				+    question: str,           # 探索要回答的问题
			
 
				+    branches: List[str],     # 探索方向 (2-4个)
			
 
				+) -> str:
			
 
				+    """并行探索多个方向,汇总结果"""
			
 
				+```
			
 
				+
			
 
				+**执行流程**:
			
 
				+```
			
 
				+1. 为每个 branch 创建独立 message list
			
 
				+2. 串行执行每个 branch (各自调用 LLM + 工具)
			
 
				+3. 收集每个 branch 的结论
			
 
				+4. 返回汇总结果给主会话
			
 
				+```
			
 
				+
			
 
				+#### Codex
			
 
				+**无明确 Sub-Agent 机制**,但有:
			
 
				+- **SessionState**: 管理会话状态
			
 
				+- **Turn Context**: 单轮对话的上下文
			
 
				+
			
 
				+#### Gemini-cli
			
 
				+**无 Sub-Agent 机制**,但有:
			
 
				+- **CoreToolScheduler**: 工具执行调度
			
 
				+- **并发工具执行**: 多个工具可并行运行
			
 
				+
			
 
				+### 6.2 并行探索对比
			
 
				+
			
 
				+| 特性 | OpenCode (参考) | OpenCode (计划) | Codex | Gemini-cli |
			
 
				+|------|---------------|---------------|-------|-----------|
			
 
				+| **并行探索** | Sub-agent 手动管理 | explore 工具自动汇总 ⭐ | 无 | 工具级并发 |
			
 
				+| **Context 隔离** | ✓ (独立 message list) | ✓ (独立 message list) | - | - |
			
 
				+| **结果汇总** | 手动 | 自动 (返回 markdown) | - | - |
			
 
				+| **适用场景** | 大任务隔离 | 多方案评估 | - | 工具执行 |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 七、回溯能力
			
 
				+
			
 
				+### 7.1 回溯机制对比
			
 
				+
			
 
				+#### OpenCode (参考方案)
			
 
				+```
			
 
				+限制: 有限的回溯能力
			
 
				+- 无精确状态保存
			
 
				+- 依赖压缩后的摘要
			
 
				+```
			
 
				+
			
 
				+#### OpenCode (我们的方案 - 计划中)
			
 
				+```python
			
 
				+goal(abandon="方案A需要Redis,环境没有", add="实现方案B")
			
 
				+```
			
 
				+
			
 
				+**回溯流程**:
			
 
				+```
			
 
				+Before:
			
 
				+  Messages:
			
 
				+    [分析代码的 20 条 message...]
			
 
				+    [实现方案 A 的 30 条 message...]  ← 这些要压缩
			
 
				+    [测试失败的 message...]
			
 
				+
			
 
				+After:
			
 
				+  Messages:
			
 
				+    [分析代码的 20 条 message...]
			
 
				+    [Summary: "尝试方案A,因依赖问题失败"]  ← 压缩为1条
			
 
				+    [开始方案B的 message...]
			
 
				+
			
 
				+  Plan:
			
 
				+    [✓] 1. 分析代码
			
 
				+    [✗] 2. 实现方案A (abandoned: 依赖问题)
			
 
				+    [→] 2'. 实现方案B
			
 
				+```
			
 
				+
			
 
				+**优势**:
			
 
				+- **精确回溯**: 基于 goal 的状态标记
			
 
				+- **保留失败原因**: summary 包含 abandon 原因
			
 
				+- **压缩旧路径**: 失败尝试不占用大量 context
			
 
				+
			
 
				+#### Codex
			
 
				+```rust
			
 
				+// GhostSnapshot: 保留被压缩部分的引用
			
 
				+pub struct CompactedItem {
			
 
				+    message: String,
			
 
				+    replacement_history: Option<Vec<ResponseItem>>,
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+**回溯能力**:
			
 
				+- **GhostSnapshot**: 用户可查看历史,但不发送给模型
			
 
				+- **Rollout 记录**: 完整的会话记录保存在 JSONL
			
 
				+- **用户转换检测**: 可定位到特定用户消息
			
 
				+
			
 
				+#### Gemini-cli
			
 
				+```typescript
			
 
				+enum CompressionStatus {
			
 
				+  COMPRESSED,
			
 
				+  COMPRESSION_FAILED_INFLATED_TOKEN_COUNT,  // 压缩反而增加
			
 
				+  COMPRESSION_FAILED_EMPTY_SUMMARY,          // 摘要为空
			
 
				+  NOOP,
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+**回溯能力**:
			
 
				+- **会话记录**: 完整的 `ConversationRecord` 保存所有消息
			
 
				+- **压缩失败回退**: 自动回退到原历史
			
 
				+- **无结构化回溯**: 缺乏基于任务的回溯机制
			
 
				+
			
 
				+### 7.2 回溯对比表
			
 
				+
			
 
				+| 项目 | 回溯粒度 | 状态保存 | 失败处理 | 历史查看 |
			
 
				+|------|---------|---------|---------|---------|
			
 
				+| **OpenCode (参考)** | 粗粒度 | 摘要 | 有限 | 基础 |
			
 
				+| **OpenCode (计划)** | **goal级别** ⭐ | goal.summary + abandon原因 | 精确压缩 | goal树 + 步骤 |
			
 
				+| **Codex** | 用户turn级别 | GhostSnapshot | GhostSnapshot引用 | 完整回滚文件 |
			
 
				+| **Gemini-cli** | 消息级别 | ConversationRecord | 自动回退 | 会话记录文件 |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 八、核心差异总结
			
 
				+
			
 
				+### 8.1 设计哲学
			
 
				+
			
 
				+| 项目 | 核心理念 | 优势场景 |
			
 
				+|------|---------|---------|
			
 
				+| **OpenCode** | **结构化计划驱动** | 复杂任务,需要回溯和探索 |
			
 
				+| **Codex** | **简单高效,成熟稳定** | 通用编码助手,快速响应 |
			
 
				+| **Gemini-cli** | **分层智能,高保真保留** | 多项目管理,长期会话 |
			
 
				+
			
 
				+### 8.2 独特创新点
			
 
				+
			
 
				+#### OpenCode (我们的方案)
			
 
				+1. **goal 工具**: 结构化 Plan + 执行关联
			
 
				+2. **explore 工具**: 并行探索自动汇总
			
 
				+3. **增量压缩**: goal 完成/放弃时压缩,而非事后被动
			
 
				+4. **精确回溯**: abandon + 状态流转
			
 
				+
			
 
				+#### Codex
			
 
				+1. **GhostSnapshot**: 压缩历史仍可查看
			
 
				+2. **原子写入**: O_APPEND + 并发安全
			
 
				+3. **字节估算**: 简单快速 (bytes/4)
			
 
				+4. **历史规范化**: 确保调用-输出对完整性
			
 
				+
			
 
				+#### Gemini-cli
			
 
				+1. **三层内存**: Global → Environment → JIT ⭐
			
 
				+2. **双重验证**: 自我批评式压缩
			
 
				+3. **反向token预算**: 优先保留最近工具输出
			
 
				+4. **启发式token估算**: 区分字符类型和媒体
			
 
				+5. **JIT Context发现**: 按需加载相关GEMINI.md
			
 
				+
			
 
				+### 8.3 技术选型对比
			
 
				+
			
 
				+| 技术点 | OpenCode | Codex | Gemini-cli |
			
 
				+|--------|---------|-------|-----------|
			
 
				+| **语言** | TypeScript | Rust | TypeScript |
			
 
				+| **存储** | Storage KV | JSONL + SQLite | JSON + 文本 |
			
 
				+| **并发** | 未明确 | Arc<Mutex> + 文件锁 | Promise限制 |
			
 
				+| **token估算** | 未详述 | bytes/4 | 启发式 (区分类型) |
			
 
				+| **压缩策略** | 两阶段 | 内联自动 | 三相智能 |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 九、与 OpenCode 方案的详细对比
			
 
				+
			
 
				+### 9.1 OpenCode vs Codex
			
 
				+
			
 
				+| 方面 | OpenCode (参考) | Codex | 评估 |
			
 
				+|------|---------------|-------|------|
			
 
				+| **Plan格式** | 纯文本 (plan.md) | TodoItem (结构化) | Codex更结构化,但OpenCode计划中的goal.json更强 |
			
 
				+| **Plan与执行关联** | 无 | TodoItem在ResponseItem中 | Codex有关联,但OpenCode计划中的goal_id更精确 |
			
 
				+| **压缩时机** | 事后 (满时) | 事后 (超过窗口) | 相同 (被动) |
			
 
				+| **并行探索** | Sub-agent (手动) | 无 | OpenCode参考方案更强,计划方案的explore更自动化 |
			
 
				+| **回溯能力** | 有限 | GhostSnapshot | Codex的GhostSnapshot有价值,但OpenCode计划的goal-based更精确 |
			
 
				+| **存储可靠性** | 未明确 | 原子写入+并发安全 | **Codex胜** ⭐ |
			
 
				+| **工具复杂度** | todoread/todowrite | 无专门工具 | OpenCode参考方案更复杂,计划的goal/explore更简洁 |
			
 
				+
			
 
				+**可借鉴**:
			
 
				+- ✓ Codex的原子写入和并发安全机制
			
 
				+- ✓ GhostSnapshot的用户友好性 (可查看但不发送)
			
 
				+- ✓ 历史规范化 (ensure_call_outputs_present)
			
 
				+
			
 
				+### 9.2 OpenCode vs Gemini-cli
			
 
				+
			
 
				+| 方面 | OpenCode (参考) | Gemini-cli | 评估 |
			
 
				+|------|---------------|-----------|------|
			
 
				+| **Plan格式** | plan.md + Todo.Info | 无 | **OpenCode胜** |
			
 
				+| **Plan与执行关联** | 无 | 无 | 平局 |
			
 
				+| **压缩时机** | 事后 (满时) | **主动** (50%阈值) | **Gemini-cli胜** ⭐ |
			
 
				+| **并行探索** | Sub-agent (手动) | 工具级并发 | OpenCode的Sub-agent隔离更好 |
			
 
				+| **回溯能力** | 有限 | 自动回退 | OpenCode计划方案的goal-based更强 |
			
 
				+| **Context分层** | 无 | **三层** (Global/Env/JIT) | **Gemini-cli胜** ⭐ |
			
 
				+| **压缩质量** | 单次生成 | **双重验证** (自我批评) | **Gemini-cli胜** ⭐ |
			
 
				+| **工具输出保留** | 删除旧输出 | **反向预算** (保留最近) | **Gemini-cli胜** ⭐ |
			
 
				+
			
 
				+**可借鉴**:
			
 
				+- ✓ 三层内存系统 (特别是JIT加载)
			
 
				+- ✓ 双重验证的压缩机制
			
 
				+- ✓ 主动压缩 (50%阈值,而非等到满)
			
 
				+- ✓ 反向token预算 (优先保留最近工具输出)
			
 
				+- ✓ 启发式token估算 (区分字符类型)
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 十、OpenCode 计划方案的优势
			
 
				+
			
 
				+### 10.1 创新点
			
 
				+
			
 
				+1. **结构化 Plan (goal.json)**
			
 
				+   - 比纯文本更精确
			
 
				+   - 支持树形结构 (goal.children)
			
 
				+   - 状态流转清晰
			
 
				+
			
 
				+2. **执行与 Plan 的强关联 (goal_id)**
			
 
				+   - 每条 message 知道它属于哪个 goal
			
 
				+   - 支持基于 goal 的压缩和回溯
			
 
				+   - 可视化时能展示 goal + 对应步骤
			
 
				+
			
 
				+3. **增量压缩 (goal 完成/放弃时)**
			
 
				+   - 比事后被动压缩更主动
			
 
				+   - 压缩粒度可控 (按 goal)
			
 
				+   - 保留失败原因 (abandon summary)
			
 
				+
			
 
				+4. **explore 工具 (并行探索自动汇总)**
			
 
				+   - 比手动管理 Sub-agent 更简单
			
 
				+   - 适合多方案评估场景
			
 
				+   - 自动生成汇总报告
			
 
				+
			
 
				+5. **精确回溯 (abandon + 状态流转)**
			
 
				+   - 比 GhostSnapshot 更结构化
			
 
				+   - 支持从失败尝试中学习
			
 
				+   - Plan 树中保留失败路径
			
 
				+
			
 
				+### 10.2 待改进点 (可借鉴其他方案)
			
 
				+
			
 
				+1. **存储可靠性** (借鉴 Codex)
			
 
				+   - 原子写入
			
 
				+   - 并发安全 (文件锁)
			
 
				+   - 自动清理旧数据
			
 
				+
			
 
				+2. **Context 分层** (借鉴 Gemini-cli)
			
 
				+   - 全局 context (用户级别)
			
 
				+   - 项目 context (项目级别)
			
 
				+   - JIT context (按需加载)
			
 
				+
			
 
				+3. **压缩质量** (借鉴 Gemini-cli)
			
 
				+   - 双重验证 (自我批评)
			
 
				+   - 压缩失败自动回退
			
 
				+   - 验证压缩后 token 数真的减少
			
 
				+
			
 
				+4. **主动压缩** (借鉴 Gemini-cli)
			
 
				+   - 达到阈值 (如 50%) 时主动压缩
			
 
				+   - 而非等到 context 满
			
 
				+
			
 
				+5. **工具输出管理** (借鉴 Gemini-cli)
			
 
				+   - 反向 token 预算
			
 
				+   - 优先保留最近工具输出的完整性
			
 
				+   - 旧输出智能截断 (保留最后N行)
			
 
				+
			
 
				+6. **Token 估算** (借鉴 Gemini-cli)
			
 
				+   - 启发式估算 (区分 ASCII/非ASCII/媒体)
			
 
				+   - 提高估算精度
			
 
				+
			
 
				+7. **用户友好性** (借鉴 Codex)
			
 
				+   - GhostSnapshot 机制 (可查看但不发送)
			
 
				+   - 历史规范化 (保证调用-输出对完整性)
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 十一、实现建议
			
 
				+
			
 
				+### 11.1 Phase 1: 核心 goal 工具 (保留计划)
			
 
				+- Goal 数据结构
			
 
				+- goal 工具 (add, done, focus)
			
 
				+- Plan 注入到 system prompt
			
 
				+- 基础可视化
			
 
				+
			
 
				+### 11.2 Phase 2: 增强存储和压缩 (借鉴)
			
 
				+- **存储增强** (借鉴 Codex):
			
 
				+  - 原子写入和并发安全
			
 
				+  - 自动清理机制
			
 
				+- **压缩增强** (借鉴 Gemini-cli):
			
 
				+  - 双重验证机制
			
 
				+  - 主动压缩 (50%阈值)
			
 
				+  - 反向token预算
			
 
				+
			
 
				+### 11.3 Phase 3: 回溯和 Context 分层
			
 
				+- **回溯支持** (计划):
			
 
				+  - abandon 操作
			
 
				+  - Message 关联 goal_id
			
 
				+  - 基于 goal 的 context 压缩
			
 
				+- **Context 分层** (借鉴 Gemini-cli):
			
 
				+  - 全局 context 文件
			
 
				+  - 项目 context 文件
			
 
				+  - JIT 子目录 context 发现
			
 
				+
			
 
				+### 11.4 Phase 4: 并行探索和优化
			
 
				+- **explore 工具** (计划):
			
 
				+  - 独立 message list 管理
			
 
				+  - 结果汇总机制
			
 
				+- **优化** (借鉴):
			
 
				+  - GhostSnapshot (用户友好)
			
 
				+  - 启发式 token 估算
			
 
				+  - 历史规范化
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 十二、总结
			
 
				+
			
 
				+### 12.1 三方案对比矩阵
			
 
				+
			
 
				+| 能力维度 | OpenCode (计划) | Codex | Gemini-cli | 最佳方案 |
			
 
				+|---------|---------------|-------|-----------|---------|
			
 
				+| **结构化 Plan** | ⭐⭐⭐ goal.json | ⭐⭐ TodoItem | ⭐ 无 | OpenCode |
			
 
				+| **执行关联** | ⭐⭐⭐ goal_id | ⭐⭐ 弱关联 | ⭐ 无 | OpenCode |
			
 
				+| **压缩策略** | ⭐⭐ 增量 | ⭐⭐ 自动 | ⭐⭐⭐ 三相智能 | Gemini-cli |
			
 
				+| **压缩时机** | ⭐⭐ goal完成时 | ⭐ 被动 | ⭐⭐⭐ 主动50% | Gemini-cli |
			
 
				+| **并行探索** | ⭐⭐⭐ explore工具 | ⭐ 无 | ⭐⭐ 工具级 | OpenCode |
			
 
				+| **回溯能力** | ⭐⭐⭐ goal-based | ⭐⭐ GhostSnapshot | ⭐⭐ 会话记录 | OpenCode |
			
 
				+| **存储可靠性** | ⭐⭐ 未明确 | ⭐⭐⭐ 原子+锁 | ⭐⭐ Promise限制 | Codex |
			
 
				+| **Context分层** | ⭐ 无 | ⭐ 无 | ⭐⭐⭐ 三层JIT | Gemini-cli |
			
 
				+| **工具输出管理** | ⭐ 删除旧的 | ⭐⭐ 截断 | ⭐⭐⭐ 反向预算 | Gemini-cli |
			
 
				+| **Token估算** | ⭐⭐ 基础 | ⭐ bytes/4 | ⭐⭐⭐ 启发式 | Gemini-cli |
			
 
				+
			
 
				+**评分说明**: ⭐ 基础, ⭐⭐ 良好, ⭐⭐⭐ 优秀
			
 
				+
			
 
				+### 12.2 最终建议
			
 
				+
			
 
				+**OpenCode 的核心优势** (保留并强化):
			
 
				+- ✅ 结构化 goal.json
			
 
				+- ✅ goal_id 关联
			
 
				+- ✅ explore 工具
			
 
				+- ✅ 精确回溯
			
 
				+
			
 
				+**应借鉴的关键特性**:
			
 
				+1. **Gemini-cli 的压缩机制**: 双重验证 + 主动压缩 + 反向预算
			
 
				+2. **Gemini-cli 的分层 Context**: 特别是 JIT 加载
			
 
				+3. **Codex 的存储可靠性**: 原子写入 + 并发安全
			
 
				+4. **Codex 的 GhostSnapshot**: 提升用户体验
			
 
				+
			
 
				+**综合方案** (OpenCode + 借鉴):
			
 
				+```
			
 
				+OpenCode 计划方案
			
 
				+  ├─ 保留: goal.json, explore工具, goal-based回溯
			
 
				+  ├─ 增强压缩: Gemini-cli的双重验证 + 主动压缩
			
 
				+  ├─ 增强存储: Codex的原子写入 + 并发安全
			
 
				+  ├─ 增强Context: Gemini-cli的三层分层 + JIT加载
			
 
				+  └─ 增强UX: Codex的GhostSnapshot
			
 
				+```
			
 
				+
			
 
				+这将是一个**结构化驱动 + 智能压缩 + 可靠存储 + 分层Context**的综合方案,集三家之长! 🎯
			
--- a/docs/context-management.md
+++ b/docs/context-management.md
@@ -0,0 +1,439 @@
 
				+# Context 管理与执行计划
			
 
				+
			
 
				+> 本文档描述 Agent 的 Context 管理、执行计划和探索机制。
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 设计目标
			
 
				+
			
 
				+1. **自主长程执行**：Agent 能独立执行复杂任务，无需人工频繁干预
			
 
				+2. **有效的 Context 管理**：长任务中保持关键信息，压缩次要细节
			
 
				+3. **支持探索和回溯**：能尝试多种方案，失败时能有效回溯
			
 
				+4. **简单的工具接口**：LLM 只需理解少量简单工具，复杂逻辑由系统处理
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 参考方案：OpenCode 的 Context 管理
			
 
				+
			
 
				+### 核心架构
			
 
				+
			
 
				+```
			
 
				+┌─────────────────┐
			
 
				+│   plan.md       │  ← 文本格式的计划（TODO 列表）
			
 
				+└─────────────────┘
			
 
				+         ↓
			
 
				+┌─────────────────┐
			
 
				+│  线性 Message   │  ← 对话历史
			
 
				+│     List        │
			
 
				+└─────────────────┘
			
 
				+         ↓
			
 
				+┌─────────────────┐
			
 
				+│  Prune + Full   │  ← 两阶段压缩
			
 
				+│   Compaction    │
			
 
				+└─────────────────┘
			
 
				+         ↓
			
 
				+┌─────────────────┐
			
 
				+│   Sub-Agent     │  ← 隔离大任务
			
 
				+└─────────────────┘
			
 
				+```
			
 
				+
			
 
				+### 1. Message 管理
			
 
				+
			
 
				+**数据结构**：
			
 
				+- User Message: 用户输入，包含 TextPart, FilePart, CompactionPart, SubtaskPart 等
			
 
				+- Assistant Message: LLM 输出，包含 TextPart, ToolPart, ReasoningPart 等
			
 
				+- 每个 Message 包含多个 Part，支持流式处理
			
 
				+
			
 
				+**存储**：
			
 
				+```
			
 
				+Storage Key:
			
 
				+["message", sessionID, messageID] -> MessageV2.Info
			
 
				+["part", messageID, partID] -> MessageV2.Part
			
 
				+```
			
 
				+
			
 
				+### 2. Context 压缩机制
			
 
				+
			
 
				+**两阶段压缩**：
			
 
				+
			
 
				+**阶段 1: Prune（清理旧工具输出）**
			
 
				+```
			
 
				+参数:
			
 
				+- PRUNE_MINIMUM = 20,000 tokens（最少删除量）
			
 
				+- PRUNE_PROTECT = 40,000 tokens（保护阈值）
			
 
				+- PRUNE_PROTECTED_TOOLS = ["skill"]（不删除的工具）
			
 
				+
			
 
				+流程:
			
 
				+1. 从后向前遍历 messages
			
 
				+2. 跳过最后 2 轮 turns（保护最近交互）
			
 
				+3. 跳过已有 summary 标记的 assistant 消息
			
 
				+4. 收集已完成工具调用的输出
			
 
				+5. 当累计 > PRUNE_PROTECT 时，标记为已 compacted
			
 
				+6. 当删除量 > PRUNE_MINIMUM 时，执行删除
			
 
				+```
			
 
				+
			
 
				+**阶段 2: Full Compaction（上下文总结）**
			
 
				+```
			
 
				+流程:
			
 
				+1. 创建新的 assistant 消息（summary=true）
			
 
				+2. 调用 "compaction" 专用 agent
			
 
				+3. 提示词: "Provide a detailed prompt for continuing our conversation..."
			
 
				+4. 返回 "continue" 时自动创建新的 user 消息继续
			
 
				+```
			
 
				+
			
 
				+### 3. Plan/Todo 机制
			
 
				+
			
 
				+**数据结构**：
			
 
				+```typescript
			
 
				+Todo.Info = {
			
 
				+  id: string
			
 
				+  content: string      // 任务描述
			
 
				+  status: string       // pending | in_progress | completed | cancelled
			
 
				+  priority: string     // high | medium | low
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+**存储**：文件系统（.opencode/plans/xxx.md）或 Storage
			
 
				+
			
 
				+### 4. Sub-Agent 机制
			
 
				+
			
 
				+**Agent Mode**：
			
 
				+- `primary`: 主代理，执行工具
			
 
				+- `subagent`: 子代理，独立 context，结果汇总回主会话
			
 
				+
			
 
				+**内置 Sub-Agents**：
			
 
				+- `general`: 通用代理，可并行执行多个任务
			
 
				+- `explore`: 代码探索专用，仅允许查询工具
			
 
				+- `compaction`: 上下文总结专用
			
 
				+
			
 
				+**Subtask 执行**：
			
 
				+1. 创建 SubtaskPart
			
 
				+2. 子代理独立处理（独立 message list）
			
 
				+3. 结果通过 "The following tool was executed by the user" 汇总
			
 
				+
			
 
				+### 5. 优缺点分析
			
 
				+
			
 
				+**优点**：
			
 
				+- 简单成熟，经过大量验证
			
 
				+- Plan 和执行分离，用户可直接编辑 plan.md
			
 
				+- Sub-agent 有效隔离大任务的 context
			
 
				+
			
 
				+**局限**：
			
 
				+- Plan 是纯文本，与执行记录无结构化关联
			
 
				+- 压缩是"事后"的，等满了再压缩
			
 
				+- 回溯能力有限，无法精确回到某个状态
			
 
				+- 不支持并行探索-合并的模式
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 我们的方案
			
 
				+
			
 
				+### 核心思路
			
 
				+
			
 
				+```
			
 
				+基于 OpenCode 方案，增强三个能力：
			
 
				+1. 结构化 Plan（goal 工具）
			
 
				+2. 并行探索-合并（explore 工具）
			
 
				+3. 精确回溯（abandon + context 压缩）
			
 
				+```
			
 
				+
			
 
				+### 架构
			
 
				+
			
 
				+```
			
 
				+┌─────────────────────────────────────────────┐
			
 
				+│              Plan (goal.json)                │
			
 
				+│  结构化的目标树，LLM 通过 goal 工具维护       │
			
 
				+└─────────────────────────────────────────────┘
			
 
				+                      │
			
 
				+         ┌────────────┴────────────┐
			
 
				+         ↓                         ↓
			
 
				+┌─────────────────┐      ┌─────────────────┐
			
 
				+│   线性执行       │      │  并行探索        │
			
 
				+│   (主 message   │      │  (explore 工具)  │
			
 
				+│    list)        │      │  多个独立分支    │
			
 
				+└─────────────────┘      └─────────────────┘
			
 
				+         │                         │
			
 
				+         ↓                         ↓
			
 
				+┌─────────────────┐      ┌─────────────────┐
			
 
				+│  完成/回溯       │      │  合并评估        │
			
 
				+│  done/abandon   │      │  返回主会话      │
			
 
				+│  触发 context   │      └─────────────────┘
			
 
				+│  压缩           │
			
 
				+└─────────────────┘
			
 
				+```
			
 
				+
			
 
				+### 工具设计
			
 
				+
			
 
				+#### 1. goal 工具：计划管理
			
 
				+
			
 
				+```python
			
 
				+@tool
			
 
				+def goal(
			
 
				+    add: Optional[str] = None,       # 添加目标（逗号分隔多个）
			
 
				+    done: Optional[str] = None,      # 完成当前目标，值为 summary
			
 
				+    abandon: Optional[str] = None,   # 放弃当前目标，值为原因
			
 
				+    focus: Optional[str] = None,     # 切换焦点到指定 id
			
 
				+) -> str:
			
 
				+    """管理执行计划。"""
			
 
				+```
			
 
				+
			
 
				+**层级支持**：`add` 添加到当前 focus 的 goal 下作为子目标。
			
 
				+
			
 
				+```python
			
 
				+# 没有 focus 时，添加到顶层
			
 
				+goal(add="分析代码, 实现功能, 测试")
			
 
				+# 结果：
			
 
				+# [ ] 1. 分析代码
			
 
				+# [ ] 2. 实现功能
			
 
				+# [ ] 3. 测试
			
 
				+
			
 
				+# focus 到某个 goal 后，add 添加为其子目标
			
 
				+goal(focus="2")
			
 
				+goal(add="设计接口, 实现代码")
			
 
				+# 结果：
			
 
				+# [ ] 1. 分析代码
			
 
				+# [→] 2. 实现功能
			
 
				+#     [ ] 2.1 设计接口
			
 
				+#     [ ] 2.2 实现代码
			
 
				+# [ ] 3. 测试
			
 
				+```
			
 
				+
			
 
				+**状态流转**：
			
 
				+```
			
 
				+pending ──focus──→ in_progress ──done──→ completed
			
 
				+                        │                    ↓
			
 
				+                        │              (压缩 context)
			
 
				+                        │
			
 
				+                     abandon
			
 
				+                        ↓
			
 
				+                   abandoned
			
 
				+                        ↓
			
 
				+                  (压缩 context)
			
 
				+```
			
 
				+
			
 
				+#### 2. explore 工具：并行探索
			
 
				+
			
 
				+基于 sub-agent 机制实现。
			
 
				+
			
 
				+```python
			
 
				+@tool
			
 
				+def explore(
			
 
				+    branches: List[str],                  # 探索方向列表
			
 
				+    background: Optional[str] = None,     # 背景概括（可选）
			
 
				+) -> str:
			
 
				+    """
			
 
				+    并行探索多个方向，汇总结果。
			
 
				+
			
 
				+    - background 有值：用它初始化各分支的 context
			
 
				+    - background 为空：继承主 message list
			
 
				+    """
			
 
				+```
			
 
				+
			
 
				+**示例**：
			
 
				+```python
			
 
				+explore(
			
 
				+    background="我们在实现用户认证。项目用 FastAPI，用户模型在 models/user.py。环境没有 Redis。",
			
 
				+    branches=[
			
 
				+        "调研 JWT 方案，考虑 token 刷新和撤销",
			
 
				+        "调研 Session 方案，寻找 Redis 替代存储"
			
 
				+    ]
			
 
				+)
			
 
				+```
			
 
				+
			
 
				+**执行流程**：
			
 
				+```
			
 
				+1. 为每个 branch 创建 sub-agent
			
 
				+   - context = background（或继承主 msg list）
			
 
				+   - prompt = branch 指令
			
 
				+2. 串行执行各 sub-agent
			
 
				+3. 收集结论，汇总返回主会话
			
 
				+```
			
 
				+
			
 
				+**分支 context 初始化**：
			
 
				+- 有 `background`：LLM 概括的背景信息作为初始 context
			
 
				+- 无 `background`：继承全部主 message list（适用于 context 不长的情况）
			
 
				+
			
 
				+### 数据结构
			
 
				+
			
 
				+#### Goal
			
 
				+
			
 
				+```python
			
 
				+@dataclass
			
 
				+class Goal:
			
 
				+    id: str                              # 自动生成: "1", "1.1", "2"
			
 
				+    description: str                     # 目标描述
			
 
				+    status: Status                       # pending | in_progress | completed | abandoned
			
 
				+    summary: Optional[str] = None        # 完成/放弃时的总结
			
 
				+    children: List["Goal"] = field(default_factory=list)
			
 
				+
			
 
				+Status = Literal["pending", "in_progress", "completed", "abandoned"]
			
 
				+
			
 
				+@dataclass
			
 
				+class GoalTree:
			
 
				+    mission: str                         # 总任务描述
			
 
				+    current_id: Optional[str] = None     # 当前焦点
			
 
				+    goals: List[Goal] = field(default_factory=list)
			
 
				+```
			
 
				+
			
 
				+#### Message 关联
			
 
				+
			
 
				+```python
			
 
				+# 每条 message 记录它属于哪个 goal
			
 
				+message = {
			
 
				+    "role": "assistant",
			
 
				+    "content": "...",
			
 
				+    "goal_id": "2.1"  # 关联到目标 2.1
			
 
				+}
			
 
				+```
			
 
				+
			
 
				+### Context 管理
			
 
				+
			
 
				+#### 1. Plan 注入
			
 
				+
			
 
				+每次 LLM 调用时，在 system prompt 末尾注入当前计划状态：
			
 
				+
			
 
				+```markdown
			
 
				+## Current Plan
			
 
				+
			
 
				+**Mission**: 实现用户认证功能
			
 
				+**Current**: 2.1 实现登录接口
			
 
				+
			
 
				+**Progress**:
			
 
				+[✓] 1. 分析代码
			
 
				+    → 用户模型在 models/user.py，使用 bcrypt 加密
			
 
				+[→] 2. 实现功能
			
 
				+    [✓] 2.1 设计接口
			
 
				+    [→] 2.2 实现登录接口  ← current
			
 
				+    [ ] 2.3 实现注册接口
			
 
				+[ ] 3. 测试
			
 
				+```
			
 
				+
			
 
				+#### 2. 完成时压缩
			
 
				+
			
 
				+当调用 `goal(done="...")` 时：
			
 
				+1. 找到该 goal 关联的所有 messages
			
 
				+2. 将详细 messages 替换为一条 summary message
			
 
				+3. 更新 goal 状态为 completed
			
 
				+
			
 
				+#### 3. 回溯时压缩
			
 
				+
			
 
				+当调用 `goal(abandon="...")` 时：
			
 
				+1. 找到该 goal 关联的所有 messages
			
 
				+2. 生成 summary（包含失败原因，供后续参考）
			
 
				+3. 将详细 messages 替换为 summary message
			
 
				+4. 更新 goal 状态为 abandoned
			
 
				+
			
 
				+**Before 回溯**：
			
 
				+```
			
 
				+Messages:
			
 
				+  [分析代码的 20 条 message...]
			
 
				+  [实现方案 A 的 30 条 message...]  ← 这些要压缩
			
 
				+  [测试失败的 message...]
			
 
				+
			
 
				+Plan:
			
 
				+  [✓] 1. 分析代码
			
 
				+  [✓] 2. 实现方案 A
			
 
				+  [→] 3. 测试
			
 
				+```
			
 
				+
			
 
				+**After 回溯**：
			
 
				+```
			
 
				+Messages:
			
 
				+  [分析代码的 20 条 message...]
			
 
				+  [Summary: "尝试方案 A，因依赖问题失败"]  ← 压缩为 1 条
			
 
				+  [开始方案 B 的 message...]
			
 
				+
			
 
				+Plan:
			
 
				+  [✓] 1. 分析代码
			
 
				+  [✗] 2. 实现方案 A (abandoned: 依赖问题)
			
 
				+  [→] 2'. 实现方案 B
			
 
				+  [ ] 3. 测试
			
 
				+```
			
 
				+
			
 
				+### 存储结构
			
 
				+
			
 
				+```
			
 
				+.trace/{trace_id}/
			
 
				+├── goal.json          # Goal Tree（LLM 通过工具维护）
			
 
				+├── messages.jsonl     # 消息记录（系统自动，含 goal_id）
			
 
				+└── meta.json          # Trace 元数据
			
 
				+```
			
 
				+
			
 
				+### 可视化
			
 
				+
			
 
				+Goal Tree + Messages 合并展示：
			
 
				+
			
 
				+```
			
 
				+Mission: 实现用户认证功能
			
 
				+══════════════════════════════════════════
			
 
				+
			
 
				+[✓] 1. 分析代码 (5 steps, 1.2s)
			
 
				+    → 用户模型在 models/user.py
			
 
				+    ┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄
			
 
				+    ├─ glob_files("**/user*.py")
			
 
				+    ├─ read_file("models/user.py")
			
 
				+    └─ [详细步骤已折叠]
			
 
				+
			
 
				+[✗] 2. 实现方案 A (abandoned)
			
 
				+    → 需要 Redis，环境没有
			
 
				+
			
 
				+[→] 2'. 实现方案 B  ← current
			
 
				+    ┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄┄
			
 
				+    ├─ read_file("requirements.txt")
			
 
				+    └─ edit_file("app.py")
			
 
				+
			
 
				+[ ] 3. 测试
			
 
				+
			
 
				+──────────────────────────────────────────
			
 
				+Progress: 1/3 goals | Current: 2'
			
 
				+```
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 与 OpenCode 方案的对比
			
 
				+
			
 
				+| 方面 | OpenCode | 我们的方案 |
			
 
				+|------|----------|-----------|
			
 
				+| Plan 格式 | 纯文本 (plan.md) | 结构化 (goal.json) |
			
 
				+| Plan 与执行关联 | 无 | 通过 goal_id 关联 |
			
 
				+| 压缩时机 | 事后（context 满时） | 增量（goal 完成/放弃时） |
			
 
				+| 并行探索 | Sub-agent（手动管理） | explore 工具（自动汇总） |
			
 
				+| 回溯能力 | 有限 | 精确（基于 goal 压缩） |
			
 
				+| 工具复杂度 | todoread/todowrite | goal/explore（更简单） |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 实现位置
			
 
				+
			
 
				+| 功能 | 文件路径 | 状态 |
			
 
				+|------|---------|------|
			
 
				+| Goal 数据模型 | `agent/goal/models.py` | 待实现 |
			
 
				+| goal 工具 | `agent/goal/tool.py` | 待实现 |
			
 
				+| explore 工具 | `agent/goal/explore.py` | 待实现 |
			
 
				+| Context 压缩 | `agent/goal/compaction.py` | 待实现 |
			
 
				+| Plan 注入 | `agent/core/runner.py` | 待实现 |
			
 
				+| 可视化 | `agent/goal/visualize.py` | 待实现 |
			
 
				+
			
 
				+---
			
 
				+
			
 
				+## 渐进式实现计划
			
 
				+
			
 
				+### Phase 1: 基础 goal 工具
			
 
				+- Goal 数据结构
			
 
				+- goal 工具（add, done, focus）
			
 
				+- Plan 注入到 system prompt
			
 
				+- 基础可视化
			
 
				+
			
 
				+### Phase 2: 回溯支持
			
 
				+- abandon 操作
			
 
				+- Message 关联 goal_id
			
 
				+- 基于 goal 的 context 压缩
			
 
				+
			
 
				+### Phase 3: 并行探索
			
 
				+- explore 工具
			
 
				+- 独立 message list 管理
			
 
				+- 结果汇总机制
			
 
				+
			
 
				+### Phase 4: 优化
			
 
				+- 更智能的压缩策略
			
 
				+- 可视化增强
			
 
				+- 性能优化
			
--- a/docs/decisions.md
+++ b/docs/decisions.md
@@ -347,134 +347,85 @@ async def advanced_search(
 
				 
			
 
				 ---
			
 
				 
			
 
				-## 11. Step 树结构 vs DAG
			
 
				+## 11. Context 管理方案选择
			
 
				 
			
 
				-### 问题
			
 
				-Step 之间的关系应该是树（单父节点）还是 DAG（多父节点）？
			
 
				-
			
 
				-### 方案对比
			
 
				+**日期**: 2026-02-04
			
 
				 
			
 
				-| 方案 | 优点 | 缺点 |
			
 
				-|------|------|------|
			
 
				-| **DAG（多父节点）** | 能精确表达并行汇合 | 复杂，难以折叠/展开 |
			
 
				-| **树（单父节点）** | 简单，天然支持折叠 | 并行汇合需要其他方式表达 |
			
 
				+### 问题
			
 
				+自主长程 Agent（非交互式工具）如何有效管理 Context？
			
 
				 
			
 
				 ### 决策
			
 
				-**选择：树结构（单父节点）**
			
 
				+**选择：基于 OpenCode 方案，增强计划管理和回溯能力**
			
 
				 
			
 
				-**理由**：
			
 
				-1. **可视化友好**：树结构天然支持折叠/展开
			
 
				-2. **足够表达**：并行工具调用可以是同一父节点的多个子节点
			
 
				-3. **简化实现**：不需要处理复杂的 DAG 遍历
			
 
				+**核心设计**：
			
 
				+- 简单的工具接口（goal, explore）
			
 
				+- 复杂逻辑由系统处理（分支管理、context 压缩）
			
 
				 
			
 
				-**实现**：`Step.parent_id: Optional[str]`（单个值，不是列表）
			
 
				+**工具**：
			
 
				+- `goal`：线性计划管理（add, done, abandon, focus）
			
 
				+- `explore`：并行探索-合并（系统管理分支 msg list 和结果汇总）
			
 
				 
			
 
				----
			
 
				+**回溯机制**：
			
 
				+- 未执行的步骤：直接修改 plan
			
 
				+- 已执行的步骤：移除原始信息，替换为简短 Summary
			
 
				 
			
 
				-## 12. 计划管理：统一到 Step 树 vs 独立 TODO 列表
			
 
				+**详细设计**：见 [`docs/context-management.md`](./context-management.md)
			
 
				 
			
 
				-### 问题
			
 
				-Agent 的计划（TODO）应该如何管理？
			
 
				+---
			
 
				 
			
 
				-### 方案对比
			
 
				+## 12. 计划管理：独立 Goal Tree vs 统一到 Step
			
 
				 
			
 
				-| 方案 | 优点 | 缺点 |
			
 
				-|------|------|------|
			
 
				-| **独立 TODO 列表**（OpenCode 方式） | 简单，与执行分离 | 计划与执行无结构化关联 |
			
 
				-| **统一到 Step 树** | 计划和执行在同一结构中，可追踪关联 | 稍复杂 |
			
 
				+**日期**: 2026-02-04（更新）
			
 
				 
			
 
				 ### 决策
			
 
				-**选择：统一到 Step 树**
			
 
				+**选择：独立的 Goal Tree + 线性 Message List**
			
 
				 
			
 
				-**设计**：
			
 
				-- `Step.status = "planned"` 表示计划中的步骤
			
 
				-- `Step.step_type = "goal"` 表示计划项/目标
			
 
				-- 模型通过 `step` 工具管理计划
			
 
				+- **Goal Tree**：结构化的目标/计划（goal.json）
			
 
				+- **Message List**：线性的执行记录
			
 
				+- **关联**：每条 message 标记 goal_id
			
 
				 
			
 
				 **理由**：
			
 
				-1. **统一模型**：不需要额外的 TODO 数据结构
			
 
				-2. **可追踪**：执行步骤自动关联到计划项
			
 
				-3. **可视化**：计划和执行在同一棵树中展示
			
 
				-
			
 
				-**参考**：OpenCode 的 `todowrite`/`todoread` 工具（`src/tool/todo.ts`）
			
 
				+- 概念清晰：Plan 是"要做什么"，Message 是"怎么做的"
			
 
				+- 压缩精确：基于 goal 完成状态压缩对应的 messages
			
 
				 
			
 
				 ---
			
 
				 
			
 
				 ## 13. Summary 生成策略
			
 
				 
			
 
				-### 问题
			
 
				-哪些 Step 需要生成 summary？
			
 
				+**日期**: 2026-02-04（更新）
			
 
				 
			
 
				 ### 决策
			
 
				-**选择：仅 evaluation 类型节点需要 summary**
			
 
				+**选择：Goal 完成或放弃时生成 summary**
			
 
				 
			
 
				-**理由**：
			
 
				-1. **避免浪费**：不是每个 step 都需要总结
			
 
				-2. **有意义的总结**：evaluation 是对一组操作的评估，值得总结
			
 
				-3. **节省资源**：减少 LLM 调用次数
			
 
				-
			
 
				-**实现**：
			
 
				-- `Step.summary` 字段可选
			
 
				-- 仅在 `step_type == "evaluation"` 时填充
			
 
				-- `tool_call`/`tool_result` 不需要 summary，直接从 `data` 提取关键信息
			
 
				+- `goal(done="summary")` - 正常完成
			
 
				+- `goal(abandon="原因")` - 放弃（包含失败原因，避免重蹈覆辙）
			
 
				 
			
 
				 ---
			
 
				 
			
 
				 ## 14. Context 压缩策略
			
 
				 
			
 
				-### 问题
			
 
				-当消息历史过长时，如何压缩？
			
 
				+**日期**: 2026-02-04（更新）
			
 
				 
			
 
				 ### 决策
			
 
				-**选择：基于树结构的分层压缩**
			
 
				+**选择：基于 Goal 状态的增量压缩**
			
 
				 
			
 
				-**设计**：
			
 
				-- **Todo 格式（简略）**：仅选择 `goal` 类型节点
			
 
				-- **历史压缩格式（详细）**：选择 `goal` + `result` + `evaluation` 节点
			
 
				-
			
 
				-**触发时机**：
			
 
				-- 正常情况：模型通过工具按需读取进度
			
 
				-- 压缩时（context 超 70%）：自动注入详细历史摘要
			
 
				-
			
 
				-**理由**：
			
 
				-1. **信息分层**：不同用途需要不同详略程度
			
 
				-2. **节点选择**：关键是选择哪些节点，而非每个节点展示什么
			
 
				-3. **按需读取**：正常情况不浪费 context
			
 
				+- Message 关联 goal_id
			
 
				+- Goal 完成/放弃时，将详细 messages 替换为 summary message
			
 
				 
			
 
				 ---
			
 
				 
			
 
				-## 15. Step 元数据设置策略
			
 
				+## 15. 并行探索机制
			
 
				 
			
 
				-### 问题
			
 
				-Step 的元数据（step_type、description、parent_id 等）如何设置？
			
 
				-
			
 
				-### 方案对比
			
 
				-
			
 
				-| 方案 | 优点 | 缺点 |
			
 
				-|------|------|------|
			
 
				-| **LLM 显式输出** | 准确 | 需要 LLM 配合特定格式，增加复杂度 |
			
 
				-| **系统自动推断** | 简单，不需要 LLM 额外输出 | 可能不够准确 |
			
 
				-| **混合** | 平衡准确性和简洁性 | 需要明确划分 |
			
 
				+**日期**: 2026-02-04
			
 
				 
			
 
				 ### 决策
			
 
				-**选择：系统自动推断为主，显式工具调用为辅**
			
 
				+**选择：explore 工具，基于 sub-agent 机制**
			
 
				 
			
 
				 **设计**：
			
 
				-- **系统自动记录**：`step_id`、`parent_id`、`tokens`、`cost`、`duration_ms`、`created_at`
			
 
				-- **系统推断**：`step_type`（基于输出内容）、`description`（从输出提取）
			
 
				-- **显式声明**（通过 step 工具）：`goal`、`evaluation`（summary）
			
 
				+- `background`：LLM 概括的背景（可选，为空则继承全部历史）
			
 
				+- `branches`：具体探索方向列表
			
 
				 
			
 
				-**step_type 推断规则**：
			
 
				-1. 有工具调用 → `action`
			
 
				-2. 调用 step 工具且 complete=True → `evaluation`
			
 
				-3. 调用 step 工具且 plan 不为空 → `goal`
			
 
				-4. 最终回复 → `response`
			
 
				-5. 默认 → `thought`
			
 
				-
			
 
				-**理由**：
			
 
				-1. **简化 LLM 负担**：不需要输出特定格式的元数据
			
 
				-2. **step 工具是显式意图**：计划和评估通过工具明确声明
			
 
				-3. **其他类型自动推断**：`thought`、`action`、`result`、`response` 可从输出内容判断
			
 
				+**执行**：每个 branch 创建 sub-agent，串行执行，结果汇总返回。
			
 
				 
			
 
				 ---
			
 
				 
			
--- a/docs/step-tree.md
+++ b/docs/step-tree.md
@@ -1,649 +0,0 @@
 
				-# Step 树结构与 Context 管理
			
 
				-
			
 
				-> 本文档描述 Agent 执行过程的结构化记录、计划管理和 Context 压缩机制。
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 设计目标
			
 
				-
			
 
				-1. **可视化**：支持执行路径的树状展示，可折叠/展开
			
 
				-2. **计划管理**：统一表达"已执行"和"计划中"的步骤
			
 
				-3. **Context 优化**：基于树结构压缩历史消息，节省 token
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 核心设计：Step 树
			
 
				-
			
 
				-### Step 类型
			
 
				-
			
 
				-```python
			
 
				-StepType = Literal[
			
 
				-    # 计划相关
			
 
				-    "goal",        # 目标/计划项（可以有子 steps）
			
 
				-
			
 
				-    # LLM 输出
			
 
				-    "thought",     # 思考/分析（中间过程）
			
 
				-    "evaluation",  # 评估总结（需要 summary）
			
 
				-    "response",    # 最终回复
			
 
				-
			
 
				-    # 工具相关
			
 
				-    "action",      # 工具调用（tool_call）
			
 
				-    "result",      # 工具结果（tool_result）
			
 
				-]
			
 
				-```
			
 
				-
			
 
				-| 类型 | 来源 | 说明 |
			
 
				-|------|------|------|
			
 
				-| `goal` | LLM（通过 step 工具） | 设定目标/计划 |
			
 
				-| `thought` | LLM | 中间思考，不产生工具调用 |
			
 
				-| `evaluation` | LLM | 对一组操作的总结，需要 summary |
			
 
				-| `response` | LLM | 最终给用户的回复 |
			
 
				-| `action` | System | LLM 决定调用工具，系统记录 |
			
 
				-| `result` | System | 工具执行结果 |
			
 
				-
			
 
				-### Step 状态
			
 
				-
			
 
				-```python
			
 
				-Status = Literal[
			
 
				-    "planned",      # 计划中（未执行）
			
 
				-    "in_progress",  # 执行中
			
 
				-    "completed",    # 已完成
			
 
				-    "failed",       # 失败
			
 
				-    "skipped",      # 跳过
			
 
				-]
			
 
				-```
			
 
				-
			
 
				-### Step 模型
			
 
				-
			
 
				-```python
			
 
				-@dataclass
			
 
				-class Step:
			
 
				-    step_id: str
			
 
				-    trace_id: str
			
 
				-    step_type: StepType
			
 
				-    status: Status
			
 
				-    sequence: int
			
 
				-
			
 
				-    # 树结构（单父节点）
			
 
				-    parent_id: Optional[str] = None
			
 
				-
			
 
				-    # 内容
			
 
				-    description: str                      # 所有节点都有
			
 
				-    data: Dict[str, Any] = field(default_factory=dict)
			
 
				-
			
 
				-    # 仅 evaluation 类型需要
			
 
				-    summary: Optional[str] = None
			
 
				-
			
 
				-    # UI 优化字段
			
 
				-    has_children: bool = False            # 是否有子节点
			
 
				-    children_count: int = 0               # 子节点数量
			
 
				-
			
 
				-    # 执行指标
			
 
				-    duration_ms: Optional[int] = None
			
 
				-    cost: Optional[float] = None
			
 
				-    tokens: Optional[int] = None
			
 
				-
			
 
				-    # 时间
			
 
				-    created_at: datetime = field(default_factory=datetime.now)
			
 
				-```
			
 
				-
			
 
				-**关键点**：
			
 
				-- `parent_id` 是单个值（树结构），不是列表（DAG）
			
 
				-- `summary` 仅在 `evaluation` 类型节点填充，不是每个节点都需要
			
 
				-- `planned` 状态的 step 相当于 TODO item
			
 
				-- `has_children` 和 `children_count` 用于前端 UI 优化（判断可展开、显示统计）
			
 
				-
			
 
				-**字段设计规则**：
			
 
				-
			
 
				-**顶层字段**（Step 类属性）：
			
 
				-- 所有（或大部分）step 都有的字段
			
 
				-- 需要筛选/排序/索引的字段（如 tokens, cost, duration_ms）
			
 
				-- 结构化、类型明确的字段
			
 
				-
			
 
				-**data 字段**（Dict）：
			
 
				-- step_type 特定的字段（不同类型有不同 schema）
			
 
				-- 详细的业务数据（如 messages, content, arguments, output）
			
 
				-- 可能很大的字段
			
 
				-- 半结构化、动态的字段
			
 
				-
			
 
				-**data 字段 schema（按 step_type）**：
			
 
				-- `thought` / `response`: model, messages, content, tool_calls
			
 
				-- `action`: tool_name, arguments
			
 
				-- `result`: tool_name, output, error
			
 
				-- `memory_read`: experiences_count, skills_count
			
 
				-- `goal`: 自定义（根据具体目标）
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 树结构示例
			
 
				-
			
 
				-```
			
 
				-Trace
			
 
				-├── goal: "探索代码库" (completed)
			
 
				-│   ├── thought: "需要先了解项目结构"
			
 
				-│   ├── action: glob_files
			
 
				-│   ├── result: [15 files...]
			
 
				-│   ├── thought: "发现配置文件，需要查看内容"
			
 
				-│   ├── action: read_file
			
 
				-│   ├── result: [content...]
			
 
				-│   └── evaluation: "主配置在 /src/config.yaml" ← summary
			
 
				-│
			
 
				-├── goal: "修改配置" (in_progress)
			
 
				-│   ├── action: read_file
			
 
				-│   └── result: [content...]
			
 
				-│
			
 
				-└── goal: "运行测试" (planned)
			
 
				-```
			
 
				-
			
 
				-### Parent 关系规则
			
 
				-
			
 
				-| Step 类型 | parent 是谁 |
			
 
				-|----------|------------|
			
 
				-| `goal` | 上一个 `goal`（或 None） |
			
 
				-| `thought` | 当前 `in_progress` 的 `goal` |
			
 
				-| `action` | 当前 `in_progress` 的 `goal` |
			
 
				-| `result` | 对应的 `action` |
			
 
				-| `evaluation` | 所属的 `goal` |
			
 
				-| `response` | 当前 `in_progress` 的 `goal`（或 None） |
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 元数据设置
			
 
				-
			
 
				-### 系统自动记录
			
 
				-
			
 
				-以下字段由系统自动填充，不需要 LLM 参与：
			
 
				-
			
 
				-```python
			
 
				-step_id: str          # 自动生成
			
 
				-parent_id: str        # 根据当前 focus 的 goal 自动设置
			
 
				-step_type: StepType   # 根据 LLM 输出推断（见下）
			
 
				-sequence: int         # 递增序号
			
 
				-tokens: int           # API 返回
			
 
				-cost: float           # 计算得出
			
 
				-duration_ms: int      # 计时
			
 
				-created_at: datetime  # 当前时间
			
 
				-```
			
 
				-
			
 
				-### Step 类型推断
			
 
				-
			
 
				-系统根据 LLM 输出内容自动推断类型，不需要显式声明：
			
 
				-
			
 
				-```python
			
 
				-def infer_step_type(llm_response) -> StepType:
			
 
				-    # 有工具调用 → action
			
 
				-    if llm_response.tool_calls:
			
 
				-        return "action"
			
 
				-
			
 
				-    # 调用了 step 工具且 complete=True → evaluation
			
 
				-    if called_step_tool(llm_response, complete=True):
			
 
				-        return "evaluation"
			
 
				-
			
 
				-    # 调用了 step 工具且 plan 不为空 → goal
			
 
				-    if called_step_tool(llm_response, plan=True):
			
 
				-        return "goal"
			
 
				-
			
 
				-    # 最终回复（无后续工具调用，对话结束）
			
 
				-    if is_final_response(llm_response):
			
 
				-        return "response"
			
 
				-
			
 
				-    # 默认：中间思考
			
 
				-    return "thought"
			
 
				-```
			
 
				-
			
 
				-### description 提取
			
 
				-
			
 
				-`description` 字段由系统从 LLM 输出中提取：
			
 
				-
			
 
				-| Step 类型 | description 来源 |
			
 
				-|----------|-----------------|
			
 
				-| `goal` | step 工具的 plan 参数 |
			
 
				-| `thought` | LLM 输出的第一句话（或截断） |
			
 
				-| `action` | 工具名 + 关键参数 |
			
 
				-| `result` | 工具返回的 title 或简要输出 |
			
 
				-| `evaluation` | step 工具的 summary 参数 |
			
 
				-| `response` | LLM 输出的第一句话（或截断） |
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 计划管理工具
			
 
				-
			
 
				-### step 工具
			
 
				-
			
 
				-模型通过 `step` 工具管理执行进度：
			
 
				-
			
 
				-```python
			
 
				-@tool
			
 
				-def step(
			
 
				-    plan: Optional[List[str]] = None,     # 添加 planned goals
			
 
				-    focus: Optional[str] = None,          # 切换焦点到哪个 goal
			
 
				-    complete: bool = False,               # 完成当前 goal
			
 
				-    summary: Optional[str] = None,        # 评估总结（配合 complete）
			
 
				-):
			
 
				-    """管理执行步骤"""
			
 
				-```
			
 
				-
			
 
				-### 使用示例
			
 
				-
			
 
				-```python
			
 
				-# 1. 创建计划
			
 
				-step(plan=["探索代码库", "修改配置", "运行测试"])
			
 
				-
			
 
				-# 2. 开始执行第一个
			
 
				-step(focus="探索代码库")
			
 
				-
			
 
				-# 3. [执行各种 tool_call...]
			
 
				-
			
 
				-# 4. 完成并切换到下一个
			
 
				-step(complete=True, summary="主配置在 /src/config.yaml", focus="修改配置")
			
 
				-
			
 
				-# 5. 中途调整计划
			
 
				-step(plan=["备份配置"])  # 追加新的 goal
			
 
				-```
			
 
				-
			
 
				-### 状态变化
			
 
				-
			
 
				-```
			
 
				-调用 step(plan=["A", "B", "C"]) 后:
			
 
				-├── goal: "A" (planned)
			
 
				-├── goal: "B" (planned)
			
 
				-└── goal: "C" (planned)
			
 
				-
			
 
				-调用 step(focus="A") 后:
			
 
				-├── goal: "A" (in_progress) ← 当前焦点
			
 
				-├── goal: "B" (planned)
			
 
				-└── goal: "C" (planned)
			
 
				-
			
 
				-调用 step(complete=True, summary="...", focus="B") 后:
			
 
				-├── goal: "A" (completed)
			
 
				-│   └── evaluation: "..." ← 自动创建
			
 
				-├── goal: "B" (in_progress) ← 新焦点
			
 
				-└── goal: "C" (planned)
			
 
				-```
			
 
				-
			
 
				----
			
 
				-
			
 
				-## Context 管理
			
 
				-
			
 
				-### 信息分层
			
 
				-
			
 
				-不同用途需要不同的信息粒度：
			
 
				-
			
 
				-| 用途 | 选择哪些节点 | 详略程度 |
			
 
				-|------|-------------|---------|
			
 
				-| **Todo 列表** | 仅 `goal` 类型 | 简略：描述 + 状态 |
			
 
				-| **历史压缩** | `goal` + `result` + `evaluation` | 详细：包含关键结果 |
			
 
				-
			
 
				-### Todo 格式（简略）
			
 
				-
			
 
				-```python
			
 
				-def to_todo_string(tree: StepTree) -> str:
			
 
				-    lines = []
			
 
				-    for goal in tree.filter(step_type="goal"):
			
 
				-        icon = {"completed": "✓", "in_progress": "→", "planned": " "}[goal.status]
			
 
				-        lines.append(f"[{icon}] {goal.description}")
			
 
				-    return "\n".join(lines)
			
 
				-```
			
 
				-
			
 
				-输出：
			
 
				-```
			
 
				-[✓] 探索代码库
			
 
				-[→] 修改配置
			
 
				-[ ] 运行测试
			
 
				-```
			
 
				-
			
 
				-### 历史压缩格式（详细）
			
 
				-
			
 
				-```python
			
 
				-def to_history_string(tree: StepTree) -> str:
			
 
				-    lines = []
			
 
				-    for goal in tree.filter(step_type="goal"):
			
 
				-        status_label = {"completed": "完成", "in_progress": "进行中", "planned": "待做"}
			
 
				-        lines.append(f"[{status_label[goal.status]}] {goal.description}")
			
 
				-
			
 
				-        if goal.status == "completed":
			
 
				-            # 选择关键结果节点
			
 
				-            for step in goal.children():
			
 
				-                if step.step_type == "result":
			
 
				-                    lines.append(f"  → {extract_brief(step.data)}")
			
 
				-                elif step.step_type == "evaluation":
			
 
				-                    lines.append(f"  总结: {step.summary}")
			
 
				-
			
 
				-    return "\n".join(lines)
			
 
				-```
			
 
				-
			
 
				-输出：
			
 
				-```
			
 
				-[完成] 探索代码库
			
 
				-  → glob_files: 找到 15 个文件
			
 
				-  → read_file(config.yaml): db_host=prod.db.com
			
 
				-  总结: 主配置在 /src/config.yaml，包含数据库连接配置
			
 
				-
			
 
				-[进行中] 修改配置
			
 
				-  → read_file(config.yaml): 已读取
			
 
				-
			
 
				-[待做] 运行测试
			
 
				-```
			
 
				-
			
 
				-### 压缩触发
			
 
				-
			
 
				-```python
			
 
				-def build_messages(messages: List, tree: StepTree) -> List:
			
 
				-    # 正常情况：不压缩
			
 
				-    if estimate_tokens(messages) < MAX_CONTEXT * 0.7:
			
 
				-        return messages
			
 
				-
			
 
				-    # 超限时：用树摘要替代历史详情
			
 
				-    history_summary = tree.to_history_string()
			
 
				-    summary_msg = {"role": "assistant", "content": history_summary}
			
 
				-
			
 
				-    # 保留最近的详细消息
			
 
				-    return [summary_msg] + recent_messages(messages)
			
 
				-```
			
 
				-
			
 
				-### 按需读取
			
 
				-
			
 
				-模型可通过工具读取当前进度，而非每次都注入：
			
 
				-
			
 
				-```python
			
 
				-@tool
			
 
				-def read_progress() -> str:
			
 
				-    """读取当前执行进度"""
			
 
				-    return tree.to_todo_string()
			
 
				-```
			
 
				-
			
 
				-**策略**：
			
 
				-- 正常情况：模型通过 `read_progress` 按需读取（省 context）
			
 
				-- 压缩时：自动注入详细历史摘要（保证不丢失）
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 可视化支持
			
 
				-
			
 
				-树结构天然支持可视化：
			
 
				-
			
 
				-- **折叠**：折叠某个 `goal` 节点 → 隐藏其子节点
			
 
				-- **展开**：展示子节点详情
			
 
				-- **回溯**：`failed` 或 `skipped` 状态的分支
			
 
				-- **并行**：同一 `goal` 下的多个 `action`（并行工具调用）
			
 
				-
			
 
				-### 边的信息
			
 
				-
			
 
				-可视化时，边（连接线）可展示：
			
 
				-- 执行时间：`Step.duration_ms`
			
 
				-- 成本：`Step.cost`
			
 
				-- 简要描述：`Step.description`
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 与 OpenCode 的对比
			
 
				-
			
 
				-| 方面 | OpenCode | 本设计 |
			
 
				-|------|----------|--------|
			
 
				-| 计划存储 | Markdown 文件 + Todo 列表 | Step 树（`planned` 状态） |
			
 
				-| 计划与执行关联 | 无结构化关联 | 统一在树结构中 |
			
 
				-| 进度读取 | `todoread` 工具 | `read_progress` 工具 |
			
 
				-| 进度更新 | `todowrite` 工具 | `step` 工具 |
			
 
				-| Context 压缩 | 无 | 基于树结构自动压缩 |
			
 
				-
			
 
				-**参考**：OpenCode 的实现见 `src/tool/todo.ts`、`src/session/prompt.ts`
			
 
				-
			
 
				----
			
 
				-
			
 
				-## Debug 工具
			
 
				-
			
 
				-### 实时查看 Step 树
			
 
				-
			
 
				-开发调试时，系统自动输出三种格式的 Step 树：
			
 
				-
			
 
				-```python
			
 
				-from agent.debug import dump_tree, dump_markdown, dump_json
			
 
				-
			
 
				-# 1. 文本格式（简洁，带截断）
			
 
				-dump_tree(trace, steps)  # 输出到 .trace/tree.txt
			
 
				-
			
 
				-# 2. Markdown 格式（完整，可折叠）
			
 
				-dump_markdown(trace, steps)  # 输出到 .trace/tree.md
			
 
				-
			
 
				-# 3. JSON 格式（程序化分析）
			
 
				-dump_json(trace, steps)  # 输出到 .trace/tree.json
			
 
				-```
			
 
				-
			
 
				-**自动生成**：在 `AgentRunner` 的 debug 模式下，会自动生成 `tree.txt` 和 `tree.md` 两个文件。
			
 
				-
			
 
				-### 三种格式对比
			
 
				-
			
 
				-| 格式 | 文件大小 | 内容完整性 | 适用场景 |
			
 
				-|-----|---------|----------|---------|
			
 
				-| **tree.txt** | 小（1-2KB） | 截断长内容 | 快速预览、终端查看 |
			
 
				-| **tree.md** | 中（5-10KB） | 完整内容 | 详细调试、编辑器查看 |
			
 
				-| **tree.json** | 大（可能>10KB） | 完整结构化 | 程序化分析、工具处理 |
			
 
				-
			
 
				-### Markdown 格式特性
			
 
				-
			
 
				-**完整可折叠**：使用 HTML `<details>` 标签实现原生折叠
			
 
				-
			
 
				-```markdown
			
 
				-<details>
			
 
				-<summary><b>📨 Messages</b></summary>
			
 
				-
			
 
				-```json
			
 
				-[完整的 messages 内容]
			
 
				-```
			
 
				-
			
 
				-</details>
			
 
				-```
			
 
				-
			
 
				-**智能截断**：
			
 
				-- ✅ **文本内容**：完整显示，不截断
			
 
				-- ✅ **工具调用**：完整显示 JSON schema
			
 
				-- ✅ **图片 base64**：智能截断，显示大小和预览
			
 
				-
			
 
				-示例输出：
			
 
				-```json
			
 
				-{
			
 
				-  "type": "image_url",
			
 
				-  "image_url": {
			
 
				-    "url": "<IMAGE_DATA: 2363.7KB, data:image/png;base64, preview: iVBORw0KGgo...>"
			
 
				-  }
			
 
				-}
			
 
				-```
			
 
				-
			
 
				-### 查看方式
			
 
				-
			
 
				-```bash
			
 
				-# 方式1：终端实时刷新（tree.txt）
			
 
				-watch -n 0.5 cat .trace/tree.txt
			
 
				-
			
 
				-# 方式2：VS Code 打开（tree.md，支持折叠）
			
 
				-code .trace/tree.md
			
 
				-
			
 
				-# 方式3：浏览器预览（tree.md）
			
 
				-# 在 VS Code 中右键 → "Open Preview" 或使用 Markdown 预览插件
			
 
				-```
			
 
				-
			
 
				-### tree.txt 输出示例
			
 
				-
			
 
				-```
			
 
				-============================================================
			
 
				- Step Tree Debug
			
 
				- Generated: 2024-01-15 14:30:25
			
 
				-============================================================
			
 
				-
			
 
				-## Trace
			
 
				-  trace_id: abc123
			
 
				-  task: 修改配置文件
			
 
				-  status: running
			
 
				-  total_steps: 5
			
 
				-  total_tokens: 1234
			
 
				-  total_cost: 0.0150
			
 
				-
			
 
				-## Steps
			
 
				-
			
 
				-├── [✓] goal: 探索代码库
			
 
				-│   id: a1b2c3d4...
			
 
				-│   duration: 1234ms
			
 
				-│   tokens: 500
			
 
				-│   cost: $0.0050
			
 
				-│   data:
			
 
				-│     description: 探索代码库
			
 
				-│   time: 14:30:10
			
 
				-│
			
 
				-│   ├── [✓] thought: 需要先了解项目结构
			
 
				-│   │   id: e5f6g7h8...
			
 
				-│   │   data:
			
 
				-│   │     content: 让我先看看项目的目录结构...
			
 
				-│   │   time: 14:30:11
			
 
				-│   │
			
 
				-│   ├── [✓] action: glob_files
			
 
				-│   │   id: i9j0k1l2...
			
 
				-│   │   duration: 50ms
			
 
				-│   │   data:
			
 
				-│   │     tool_name: glob_files
			
 
				-│   │     arguments: {"pattern": "**/*.py"}
			
 
				-│   │   time: 14:30:12
			
 
				-│   │
			
 
				-│   └── [✓] result: 找到 15 个文件
			
 
				-│       id: m3n4o5p6...
			
 
				-│       data:
			
 
				-│         output: ["src/main.py", "src/config.py", ...]
			
 
				-│       time: 14:30:12
			
 
				-│
			
 
				-└── [→] goal: 修改配置
			
 
				-    id: q7r8s9t0...
			
 
				-    time: 14:30:15
			
 
				-```
			
 
				-
			
 
				-**实现**：`agent/execution/tree_dump.py`
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 实现位置
			
 
				-
			
 
				-- Step 模型：`agent/execution/models.py:Step`（已实现）
			
 
				-- Trace 模型：`agent/execution/models.py:Trace`（已实现）
			
 
				-- 存储接口：`agent/execution/protocols.py:TraceStore`（已实现）
			
 
				-- 文件存储：`agent/execution/fs_store.py:FileSystemTraceStore`（已实现）
			
 
				-- Debug 工具：`agent/execution/tree_dump.py`（已实现）
			
 
				-- **Core Skill**：`agent/skills/core.md`（已实现）
			
 
				-- step 工具：`agent/tools/builtin/step.py`（待实现）
			
 
				-- read_progress 工具：`agent/tools/builtin/step.py`（待实现）
			
 
				-- Context 压缩：`agent/context/compressor.py`（待实现）
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 可视化 API
			
 
				-
			
 
				-### 设计目标
			
 
				-
			
 
				-为前端提供 Step 树的查询和实时推送接口，支持：
			
 
				-1. 历史任务和进行中任务的查询
			
 
				-2. 大型 Trace（上千 Step）的按需加载
			
 
				-3. WebSocket 实时推送进行中任务的更新
			
 
				-
			
 
				-### 核心设计
			
 
				-
			
 
				-**简化原则**：消除"批次计算"和"同层完整性检查"的复杂逻辑，使用简单的层级懒加载
			
 
				-
			
 
				-**数据结构**：返回树形 JSON，前端无需自行构建
			
 
				-
			
 
				-**性能策略**：
			
 
				-- 小型 Trace（<100 Steps）：用 `/tree` 一次性返回完整树
			
 
				-- 大型 Trace（>100 Steps）：用 `/node/{step_id}` 按需懒加载
			
 
				-- 进行中任务：WebSocket 推送增量更新
			
 
				-
			
 
				-### API 端点
			
 
				-
			
 
				-```
			
 
				-GET  /api/traces                          # 列出 Traces（支持过滤）
			
 
				-GET  /api/traces/{trace_id}               # 获取 Trace 元数据
			
 
				-GET  /api/traces/{trace_id}/tree          # 获取完整树（小型 Trace）
			
 
				-GET  /api/traces/{trace_id}/node/{step_id}  # 懒加载节点 + 子节点
			
 
				-WS   /api/traces/{trace_id}/watch         # 监听进行中的更新
			
 
				-```
			
 
				-
			
 
				-### 懒加载核心逻辑
			
 
				-
			
 
				-```python
			
 
				-async def get_node_with_children(
			
 
				-    store: TraceStore,
			
 
				-    step_id: Optional[str],  # None = 根节点
			
 
				-    trace_id: str,
			
 
				-    expand: bool = False,
			
 
				-    max_depth: int = 1
			
 
				-) -> dict:
			
 
				-    # 1. 获取当前层节点
			
 
				-    if step_id is None:
			
 
				-        steps = await store.get_trace_steps(trace_id)
			
 
				-        current_nodes = [s for s in steps if s.parent_id is None]
			
 
				-    else:
			
 
				-        current_nodes = await store.get_step_children(step_id)
			
 
				-
			
 
				-    # 2. 构建响应
			
 
				-    result = []
			
 
				-    for step in current_nodes:
			
 
				-        node = step.to_dict()
			
 
				-        node["children"] = []
			
 
				-
			
 
				-        # 3. 递归加载子节点（可选）
			
 
				-        if expand and current_depth < max_depth:
			
 
				-            children = await store.get_step_children(step.step_id)
			
 
				-            if children:
			
 
				-                node["children"] = [...]  # 递归
			
 
				-
			
 
				-        result.append(node)
			
 
				-
			
 
				-    return result
			
 
				-```
			
 
				-
			
 
				-**品味评分**：🟢 好品味（逻辑清晰，< 30 行，无特殊情况）
			
 
				-
			
 
				-### WebSocket 事件
			
 
				-
			
 
				-```json
			
 
				-// 新增 Step
			
 
				-{"event": "step_added", "step": {...}}
			
 
				-
			
 
				-// Step 更新
			
 
				-{"event": "step_updated", "step_id": "...", "updates": {...}}
			
 
				-
			
 
				-// Trace 完成
			
 
				-{"event": "trace_completed", "trace_id": "..."}
			
 
				-```
			
 
				-
			
 
				-### 实现位置（待定）
			
 
				-
			
 
				-两种方案：
			
 
				-
			
 
				-**方案 1：独立 API 模块**（推荐，如果未来需要多种 API）
			
 
				-```
			
 
				-agent/api/
			
 
				-├── server.py           # FastAPI 应用
			
 
				-├── routes/
			
 
				-│   ├── traces.py       # Step 树路由
			
 
				-│   └── websocket.py    # WebSocket 推送
			
 
				-└── schemas.py          # Pydantic 模型
			
 
				-```
			
 
				-
			
 
				-**方案 2：Step 树专用模块**（推荐，如果只用于 Step 树可视化）
			
 
				-```
			
 
				-agent/step_tree/
			
 
				-├── api.py              # FastAPI 路由
			
 
				-├── websocket.py        # WebSocket 推送
			
 
				-└── server.py           # 独立服务入口
			
 
				-```
			
 
				-
			
 
				-决策依据：
			
 
				-- 如果系统未来需要提供多种 API（Experience 管理、Agent 控制等）→ 方案 1
			
 
				-- 如果 API 仅用于 Step 树可视化 → 方案 2
			
 
				-
			
 
				-**详细设计**：参见 `/Users/sunlit/.claude/plans/starry-yawning-zebra.md`
			
 
				-
			
 
				----
			
 
				-
			
 
				-## 未来扩展
			
 
				-
			
 
				-- 重试原因、重试次数、是否降级/兜底
			
 
				-- 为什么选择某个动作、是否触发了 skills、系统 prompt 中的策略
			
 
				-- 数据库持久化（PostgreSQL/Neo4j）
			
 
				-- 递归查询优化（PostgreSQL CTE）