集成测试 3 - 内容生成任务
真实场景测试:内容创作任务,完全不提示工具和步骤。
测试场景
任务:为咖啡店创作品牌文案
给定信息:
- 咖啡店基本信息(名称、定位、目标客户、特色)
- 需要的内容类型(品牌故事、店铺简介、菜单描述、社交媒体文案、海报文案)
- 输出要求(风格、重点、市场)
不给的信息:
- ❌ 不提示使用任何工具(goal、subagent、write_file 等)
- ❌ 不提示任何步骤
- ❌ 不提示如何组织内容
- ❌ 完全模拟真实用户的使用方式
测试目标
验证 Agent 在真实使用场景中:
- 是否会主动规划任务(使用 goal 工具)
- 是否能理解任务并生成高质量内容
- 是否会主动保存文件到指定目录
- 是否会组织和结构化输出
- 是否会进行质量检查(可能使用 subagent evaluate)
与之前测试的区别
| 项目 |
测试 1 |
测试 2 |
测试 3 |
| 任务类型 |
代码重构 |
功能实现 |
内容生成 |
| 复杂度 |
简单 |
中等 |
中等 |
| 工具提示 |
明确要求 |
无 |
无 |
| 步骤提示 |
有 |
无 |
无 |
| System Prompt |
详细 |
简单 |
极简 |
| 真实性 |
中 |
高 |
极高 |
运行测试
cd /Users/elksmmx/Desktop/Agent
python examples/integration_test_3/run.py
预期行为
Agent 可能会:
- ✅ 使用 goal 工具规划任务(如果它认为任务复杂)
- ✅ 直接开始创作内容(如果它认为任务简单)
- ✅ 使用 write_file 保存文件到指定目录
- ✅ 创建多个文件(每个内容类型一个文件,或者一个总文件)
- ❓ 可能使用 subagent evaluate 检查内容质量
- ❓ 可能使用 subagent delegate 委托某些子任务
成功标准
- ✅ 生成了所有要求的内容
- ✅ 内容质量好(符合品牌定位和风格要求)
- ✅ 文件保存到了指定目录
- ✅ 内容组织合理(有结构、易读)
特点
这个测试最接近真实用户使用场景:
- 用户不会告诉 Agent 用什么工具
- 用户只会描述想要什么结果
- Agent 需要自己决定如何完成任务