集成测试 3 - 内容生成任务

真实场景测试：内容创作任务，完全不提示工具和步骤。

测试场景

任务：为咖啡店创作品牌文案

给定信息：

咖啡店基本信息（名称、定位、目标客户、特色）
需要的内容类型（品牌故事、店铺简介、菜单描述、社交媒体文案、海报文案）
输出要求（风格、重点、市场）

不给的信息：

❌ 不提示使用任何工具（goal、subagent、write_file 等）
❌ 不提示任何步骤
❌ 不提示如何组织内容
❌ 完全模拟真实用户的使用方式

测试目标

验证 Agent 在真实使用场景中：

是否会主动规划任务（使用 goal 工具）
是否能理解任务并生成高质量内容
是否会主动保存文件到指定目录
是否会组织和结构化输出
是否会进行质量检查（可能使用 subagent evaluate）

与之前测试的区别

项目	测试 1	测试 2	测试 3
任务类型	代码重构	功能实现	内容生成
复杂度	简单	中等	中等
工具提示	明确要求	无	无
步骤提示	有	无	无
System Prompt	详细	简单	极简
真实性	中	高	极高

运行测试

cd /Users/elksmmx/Desktop/Agent
python examples/integration_test_3/run.py

预期行为

Agent 可能会：

✅ 使用 goal 工具规划任务（如果它认为任务复杂）
✅ 直接开始创作内容（如果它认为任务简单）
✅ 使用 write_file 保存文件到指定目录
✅ 创建多个文件（每个内容类型一个文件，或者一个总文件）
❓ 可能使用 subagent evaluate 检查内容质量
❓ 可能使用 subagent delegate 委托某些子任务

成功标准

✅ 生成了所有要求的内容
✅ 内容质量好（符合品牌定位和风格要求）
✅ 文件保存到了指定目录
✅ 内容组织合理（有结构、易读）

特点

这个测试最接近真实用户使用场景：

用户不会告诉 Agent 用什么工具
用户只会描述想要什么结果
Agent 需要自己决定如何完成任务