elksmmx 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 há 4 semanas atrás
..
project 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 há 4 semanas atrás
README.md 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 há 4 semanas atrás
run.py 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 há 4 semanas atrás
task.prompt 83db9cd446 重构了文件架构;修改agent沟通机制为信号机制 há 4 semanas atrás

README.md

集成测试

真实场景测试,验证重构后的 Agent 系统在实际任务中的表现。

测试场景

任务:代码重构与测试

  • 分析现有代码
  • 添加新功能(计算平均值)
  • 编写测试
  • 运行测试验证

测试目标

验证以下功能在真实场景中能否正常工作:

  1. Goal 工具 - 创建和管理执行计划
  2. SubAgent 工具 - delegate 模式(委托子任务)
  3. SubAgent 工具 - evaluate 模式(评估结果)
  4. 文件操作 - 读写编辑文件
  5. Bash 工具 - 运行测试命令

运行测试

# 进入项目根目录
cd /Users/elksmmx/Desktop/Agent

# 运行集成测试
python examples/integration_test/run.py

测试原则

  • 不刻意测试某个功能:让 Agent 自然地完成任务
  • 真实场景:模拟实际的开发工作流程
  • 优先改测试用例:如果出错,先调整测试用例,而不是修改 Agent 本体

预期行为

Agent 应该:

  1. 使用 goal 工具创建执行计划
  2. 逐步完成每个目标
  3. 使用文件操作工具读写代码
  4. 使用 bash_command 运行测试
  5. 使用 subagent(mode="evaluate") 评估代码质量
  6. 生成总结报告

项目结构

integration_test/
├── run.py              # 测试运行脚本
├── task.prompt         # 任务描述 prompt
├── project/
│   └── calculator.py   # 待重构的代码
└── README.md           # 本文件

成功标准

  • ✅ Agent 使用了 goal 工具创建计划
  • ✅ Agent 使用了 subagent 工具(evaluate 或 delegate 模式)
  • ✅ 成功添加了新功能(average 函数)
  • ✅ 生成了测试文件
  • ✅ 测试通过
  • ✅ 生成了总结报告