集成测试 4 - 复杂文档生成任务
验证 Agent 在复杂任务中是否会主动使用 goal 和 subagent 工具。
测试场景
任务:为项目管理工具编写完整的技术文档
复杂度提升:
- ✅ 需要先读取 2 个参考文档(产品需求 + 技术规范)
- ✅ 需要生成 5 个不同的文档
- ✅ 需要理解和应用技术规范
- ✅ 需要创建图表(Mermaid 语法)
- ✅ 需要保证文档之间的一致性
- ✅ 需要代码示例
给定信息:
- 参考文档位置
- 需要输出的文档类型
- 质量要求
- 输出位置
不给的信息:
- ❌ 不提示使用任何工具
- ❌ 不提示任何步骤
- ❌ 不提示如何组织工作
- ❌ 完全模拟真实用户
为什么这个任务更复杂?
对比测试 3(简单文案)
| 维度 |
测试 3 |
测试 4 |
| 输入 |
直接给定信息 |
需要读取参考文档 |
| 输出数量 |
1 个文件 |
5 个文件 |
| 内容关联 |
独立内容 |
需要保持一致性 |
| 技术要求 |
无 |
需要符合技术规范 |
| 图表 |
无 |
需要 Mermaid 图表 |
| 代码 |
无 |
需要代码示例 |
预期 Agent 会:
使用 goal 工具规划任务
- 读取参考文档
- 生成系统架构文档
- 生成数据库设计文档
- 生成 API 文档
- 生成前端组件文档
- 生成部署文档
可能使用 subagent
- evaluate 模式:检查文档质量和一致性
- delegate 模式:委托某些复杂文档的生成
运行测试
cd /Users/elksmmx/Desktop/Agent
python examples/integration_test_4/run.py
成功标准
基本要求
- ✅ 生成了所有 5 个文档
- ✅ 文档内容完整、准确
- ✅ 符合技术规范
- ✅ 包含 Mermaid 图表
- ✅ 包含代码示例
高级要求
- ✅ 使用了 goal 工具规划任务
- ✅ 文档之间保持一致性
- ✅ (可选)使用了 subagent 评估质量
测试意义
这个测试能验证:
- Agent 是否能识别复杂任务并主动规划
- Agent 是否能处理多步骤、有依赖的任务
- Agent 是否能保证输出质量和一致性
- Goal 和 SubAgent 工具在真实复杂场景中的实用性