集成测试 4 - 复杂文档生成任务

验证 Agent 在复杂任务中是否会主动使用 goal 和 subagent 工具。

测试场景

任务：为项目管理工具编写完整的技术文档

复杂度提升：

✅ 需要先读取 2 个参考文档（产品需求 + 技术规范）
✅ 需要生成 5 个不同的文档
✅ 需要理解和应用技术规范
✅ 需要创建图表（Mermaid 语法）
✅ 需要保证文档之间的一致性
✅ 需要代码示例

给定信息：

参考文档位置
需要输出的文档类型
质量要求
输出位置

不给的信息：

❌ 不提示使用任何工具
❌ 不提示任何步骤
❌ 不提示如何组织工作
❌ 完全模拟真实用户

为什么这个任务更复杂？

对比测试 3（简单文案）

维度	测试 3	测试 4
输入	直接给定信息	需要读取参考文档
输出数量	1 个文件	5 个文件
内容关联	独立内容	需要保持一致性
技术要求	无	需要符合技术规范
图表	无	需要 Mermaid 图表
代码	无	需要代码示例

预期 Agent 会：

使用 goal 工具规划任务
- 读取参考文档
- 生成系统架构文档
- 生成数据库设计文档
- 生成 API 文档
- 生成前端组件文档
- 生成部署文档
可能使用 subagent
- evaluate 模式：检查文档质量和一致性
- delegate 模式：委托某些复杂文档的生成

运行测试

cd /Users/elksmmx/Desktop/Agent
python examples/integration_test_4/run.py

成功标准

基本要求

✅ 生成了所有 5 个文档
✅ 文档内容完整、准确
✅ 符合技术规范
✅ 包含 Mermaid 图表
✅ 包含代码示例

高级要求

✅ 使用了 goal 工具规划任务
✅ 文档之间保持一致性
✅ （可选）使用了 subagent 评估质量

测试意义

这个测试能验证：

Agent 是否能识别复杂任务并主动规划
Agent 是否能处理多步骤、有依赖的任务
Agent 是否能保证输出质量和一致性
Goal 和 SubAgent 工具在真实复杂场景中的实用性