# 集成测试 5: 用户认证模块实现（强制评估）

## 测试目标

验证 Agent 能够：
1. 使用 `subagent(mode="evaluate")` 进行代码质量评估
2. 根据评估结果修复代码
3. 实现评估-修复-重新评估的迭代流程

## 测试场景

实现一个用户认证模块，包含：
- 用户注册功能
- 用户登录功能
- 密码重置功能

**关键点**：任务明确要求必须使用 subagent 工具评估每个功能的安全性。

## 为什么这个测试能触发 subagent 使用？

### 1. 明确的评估要求
- System prompt 中明确规定必须使用 subagent 评估
- 任务描述中详细说明了评估流程
- 提供了 subagent 调用的示例代码

### 2. 安全关键场景
- 用户认证是安全关键模块
- 有明确的安全检查点（密码加密、SQL注入、输入验证等）
- 评估不通过必须修复

### 3. 工作流程强制
- 步骤 1: 规划（使用 goal）
- 步骤 2: 实现（编写代码）
- 步骤 3: 评估（使用 subagent）← 强制步骤
- 步骤 4: 修复（如果评估失败）

### 4. 质量门槛
- 代码必须通过评估才能标记为完成
- 创建了"实现"和"验证"的明确分离

## 运行测试

```bash
cd examples/integration_test_5
python run.py
```

## 预期结果

- ✅ Agent 创建 3 个 goal（注册、登录、密码重置）
- ✅ Agent 使用 subagent(mode="evaluate") 至少 3 次
- ✅ 获得评估结果（passed/不通过 + 理由）
- ✅ 如果评估不通过，Agent 会修复代码并重新评估
- ✅ 生成 auth.py 代码文件
- ✅ 生成 IMPLEMENTATION_REPORT.md 报告

## 与之前测试的区别

| 测试 | 评估要求 | 结果 |
|------|---------|------|
| 测试 1 | 提示使用评估 | ✅ 使用了 |
| 测试 2-4 | 无提示 | ❌ 未使用 |
| **测试 5** | **强制要求评估** | **应该使用** |

关键差异：
- 测试 1-4: 评估是可选的，Agent 自行判断
- 测试 5: 评估是强制的，是工作流程的一部分