|
|
4 hafta önce | |
|---|---|---|
| .. | ||
| project | 4 hafta önce | |
| README.md | 4 hafta önce | |
| run.py | 4 hafta önce | |
| task.prompt | 4 hafta önce | |
验证 Agent 在没有步骤提示的情况下,能否自主完成完整功能实现。
任务:实现一个待办事项管理工具(Todo List)
给定信息:
不给的信息:
验证 Agent 是否能:
cd /Users/elksmmx/Desktop/Agent
python examples/integration_test_2/run.py
| 项目 | 测试 1 | 测试 2 |
|---|---|---|
| 任务复杂度 | 简单(添加一个函数) | 中等(完整功能实现) |
| 步骤提示 | 有(4个步骤) | 无 |
| 工具提示 | 明确要求使用 goal 和 subagent | 无 |
| 自主性要求 | 中 | 高 |
这个测试更能验证 Agent 的自主规划和执行能力。