elksmmx 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 4 hete
..
reference 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 4 hete
README.md 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 4 hete
run.py 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 4 hete
task.prompt 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 4 hete

README.md

集成测试 4 - 复杂文档生成任务

验证 Agent 在复杂任务中是否会主动使用 goal 和 subagent 工具。

测试场景

任务:为项目管理工具编写完整的技术文档

复杂度提升

  • ✅ 需要先读取 2 个参考文档(产品需求 + 技术规范)
  • ✅ 需要生成 5 个不同的文档
  • ✅ 需要理解和应用技术规范
  • ✅ 需要创建图表(Mermaid 语法)
  • ✅ 需要保证文档之间的一致性
  • ✅ 需要代码示例

给定信息

  • 参考文档位置
  • 需要输出的文档类型
  • 质量要求
  • 输出位置

不给的信息

  • ❌ 不提示使用任何工具
  • ❌ 不提示任何步骤
  • ❌ 不提示如何组织工作
  • ❌ 完全模拟真实用户

为什么这个任务更复杂?

对比测试 3(简单文案)

维度 测试 3 测试 4
输入 直接给定信息 需要读取参考文档
输出数量 1 个文件 5 个文件
内容关联 独立内容 需要保持一致性
技术要求 需要符合技术规范
图表 需要 Mermaid 图表
代码 需要代码示例

预期 Agent 会:

  1. 使用 goal 工具规划任务

    • 读取参考文档
    • 生成系统架构文档
    • 生成数据库设计文档
    • 生成 API 文档
    • 生成前端组件文档
    • 生成部署文档
  2. 可能使用 subagent

    • evaluate 模式:检查文档质量和一致性
    • delegate 模式:委托某些复杂文档的生成

运行测试

cd /Users/elksmmx/Desktop/Agent
python examples/integration_test_4/run.py

成功标准

基本要求

  • ✅ 生成了所有 5 个文档
  • ✅ 文档内容完整、准确
  • ✅ 符合技术规范
  • ✅ 包含 Mermaid 图表
  • ✅ 包含代码示例

高级要求

  • ✅ 使用了 goal 工具规划任务
  • ✅ 文档之间保持一致性
  • ✅ (可选)使用了 subagent 评估质量

测试意义

这个测试能验证:

  • Agent 是否能识别复杂任务并主动规划
  • Agent 是否能处理多步骤、有依赖的任务
  • Agent 是否能保证输出质量和一致性
  • Goal 和 SubAgent 工具在真实复杂场景中的实用性