集成测试 2 - 完全开放任务
验证 Agent 在没有步骤提示的情况下,能否自主完成完整功能实现。
测试场景
任务:实现一个待办事项管理工具(Todo List)
给定信息:
- 需求描述(添加、删除、标记完成、持久化、CLI、测试)
- 项目路径
不给的信息:
- ❌ 不告诉它要用 goal 工具
- ❌ 不告诉它要分几个步骤
- ❌ 不告诉它要用 subagent 评估
- ❌ 不告诉它具体怎么实现
测试目标
验证 Agent 是否能:
- 自主规划 - 主动使用 goal 工具创建执行计划
- 合理拆分 - 将任务拆分成合理的子目标
- 完整实现 - 实现所有需求功能
- 质量保证 - 主动编写测试、评估代码质量
- 自主决策 - 在没有明确指导的情况下做出合理决策
运行测试
cd /Users/elksmmx/Desktop/Agent
python examples/integration_test_2/run.py
成功标准
- ✅ Agent 主动使用了 goal 工具(没有被要求)
- ✅ Agent 创建了合理的执行计划
- ✅ 实现了待办事项的核心功能
- ✅ 实现了数据持久化
- ✅ 实现了命令行界面
- ✅ 编写了测试代码
- ✅ 测试通过
- ✅ (可选)使用了 subagent 评估代码质量
与测试 1 的区别
| 项目 |
测试 1 |
测试 2 |
| 任务复杂度 |
简单(添加一个函数) |
中等(完整功能实现) |
| 步骤提示 |
有(4个步骤) |
无 |
| 工具提示 |
明确要求使用 goal 和 subagent |
无 |
| 自主性要求 |
中 |
高 |
这个测试更能验证 Agent 的自主规划和执行能力。