# 集成测试 真实场景测试,验证重构后的 Agent 系统在实际任务中的表现。 ## 测试场景 **任务**:代码重构与测试 - 分析现有代码 - 添加新功能(计算平均值) - 编写测试 - 运行测试验证 ## 测试目标 验证以下功能在真实场景中能否正常工作: 1. **Goal 工具** - 创建和管理执行计划 2. **SubAgent 工具** - delegate 模式(委托子任务) 3. **SubAgent 工具** - evaluate 模式(评估结果) 4. **文件操作** - 读写编辑文件 5. **Bash 工具** - 运行测试命令 ## 运行测试 ```bash # 进入项目根目录 cd /Users/elksmmx/Desktop/Agent # 运行集成测试 python examples/integration_test/run.py ``` ## 测试原则 - **不刻意测试某个功能**:让 Agent 自然地完成任务 - **真实场景**:模拟实际的开发工作流程 - **优先改测试用例**:如果出错,先调整测试用例,而不是修改 Agent 本体 ## 预期行为 Agent 应该: 1. 使用 `goal` 工具创建执行计划 2. 逐步完成每个目标 3. 使用文件操作工具读写代码 4. 使用 `bash_command` 运行测试 5. 使用 `subagent(mode="evaluate")` 评估代码质量 6. 生成总结报告 ## 项目结构 ``` integration_test/ ├── run.py # 测试运行脚本 ├── task.prompt # 任务描述 prompt ├── project/ │ └── calculator.py # 待重构的代码 └── README.md # 本文件 ``` ## 成功标准 - ✅ Agent 使用了 goal 工具创建计划 - ✅ Agent 使用了 subagent 工具(evaluate 或 delegate 模式) - ✅ 成功添加了新功能(average 函数) - ✅ 生成了测试文件 - ✅ 测试通过 - ✅ 生成了总结报告