# 集成测试

真实场景测试，验证重构后的 Agent 系统在实际任务中的表现。

## 测试场景

**任务**：代码重构与测试
- 分析现有代码
- 添加新功能（计算平均值）
- 编写测试
- 运行测试验证

## 测试目标

验证以下功能在真实场景中能否正常工作：

1. **Goal 工具** - 创建和管理执行计划
2. **SubAgent 工具** - delegate 模式（委托子任务）
3. **SubAgent 工具** - evaluate 模式（评估结果）
4. **文件操作** - 读写编辑文件
5. **Bash 工具** - 运行测试命令

## 运行测试

```bash
# 进入项目根目录
cd /Users/elksmmx/Desktop/Agent

# 运行集成测试
python examples/integration_test/run.py
```

## 测试原则

- **不刻意测试某个功能**：让 Agent 自然地完成任务
- **真实场景**：模拟实际的开发工作流程
- **优先改测试用例**：如果出错，先调整测试用例，而不是修改 Agent 本体

## 预期行为

Agent 应该：
1. 使用 `goal` 工具创建执行计划
2. 逐步完成每个目标
3. 使用文件操作工具读写代码
4. 使用 `bash_command` 运行测试
5. 使用 `subagent(mode="evaluate")` 评估代码质量
6. 生成总结报告

## 项目结构

```
integration_test/
├── run.py              # 测试运行脚本
├── task.prompt         # 任务描述 prompt
├── project/
│   └── calculator.py   # 待重构的代码
└── README.md           # 本文件
```

## 成功标准

- ✅ Agent 使用了 goal 工具创建计划
- ✅ Agent 使用了 subagent 工具（evaluate 或 delegate 模式）
- ✅ 成功添加了新功能（average 函数）
- ✅ 生成了测试文件
- ✅ 测试通过
- ✅ 生成了总结报告