集成测试 2 - 完全开放任务

验证 Agent 在没有步骤提示的情况下，能否自主完成完整功能实现。

测试场景

任务：实现一个待办事项管理工具（Todo List）

给定信息：

需求描述（添加、删除、标记完成、持久化、CLI、测试）
项目路径

不给的信息：

❌ 不告诉它要用 goal 工具
❌ 不告诉它要分几个步骤
❌ 不告诉它要用 subagent 评估
❌ 不告诉它具体怎么实现

测试目标

验证 Agent 是否能：

自主规划 - 主动使用 goal 工具创建执行计划
合理拆分 - 将任务拆分成合理的子目标
完整实现 - 实现所有需求功能
质量保证 - 主动编写测试、评估代码质量
自主决策 - 在没有明确指导的情况下做出合理决策

运行测试

cd /Users/elksmmx/Desktop/Agent
python examples/integration_test_2/run.py

成功标准

✅ Agent 主动使用了 goal 工具（没有被要求）
✅ Agent 创建了合理的执行计划
✅ 实现了待办事项的核心功能
✅ 实现了数据持久化
✅ 实现了命令行界面
✅ 编写了测试代码
✅ 测试通过
✅ （可选）使用了 subagent 评估代码质量

与测试 1 的区别

项目	测试 1	测试 2
任务复杂度	简单（添加一个函数）	中等（完整功能实现）
步骤提示	有（4个步骤）	无
工具提示	明确要求使用 goal 和 subagent	无
自主性要求	中	高

这个测试更能验证 Agent 的自主规划和执行能力。