2 tháng trước cách đây · f3fff2bd11
--- a/examples/integration_real_env/README.md
+++ b/examples/integration_real_env/README.md
@@ -1,23 +0,0 @@
 
															-# 真实环境集成测试（Agent-main）
														
 
															-
														
 
															-该测试用于在真实 `conda` 环境中验证 `Agent-main` 的核心功能链路是否正常。
														
 
															-
														
 
															-## 覆盖范围
														
 
															-
														
 
															-1. 工具注册链路（含 browser 工具注册可见性）
														
 
															-2. 文件工具链：`write_file` / `read_file` / `edit_file` / `glob_files` / `grep_content`
														
 
															-3. 命令工具：`bash_command`
														
 
															-4. `AgentRunner.call`
														
 
															-5. `AgentRunner.run`
														
 
															-6. 统一 `subagent`：`delegate` / `explore` / `evaluate` / `continue_from`
														
 
															-
														
 
															-## 运行
														
 
															-
														
 
															-```bash
														
 
															-BROWSER_USE_CONFIG_DIR=/tmp/browseruse-test conda run -n Agent \
														
 
															-  python Agent-main/examples/integration_real_env/run.py
														
 
															-```
														
 
															-
														
 
															-说明：
														
 
															-- 测试默认使用内置 mock LLM，不依赖外部 API Key。
														
 
															-- 目的是验证真实环境中的框架链路、工具执行与 trace 行为。
														
--- a/examples/integration_real_env/run.py
+++ b/examples/integration_real_env/run.py
@@ -1,320 +0,0 @@
 
															-"""
														
 
															-真实环境集成测试（Agent-main）。
														
 
															-"""
														
 
															-
														
 
															-import asyncio
														
 
															-import json
														
 
															-import os
														
 
															-import sys
														
 
															-from dataclasses import dataclass
														
 
															-from pathlib import Path
														
 
															-from tempfile import TemporaryDirectory
														
 
															-from typing import Any, Dict, List
														
 
															-
														
 
															-
														
 
															-# 避免 browser_use 在受限环境写 ~/.config 触发权限错误
														
 
															-os.environ.setdefault("BROWSER_USE_CONFIG_DIR", "/tmp/browseruse-test")
														
 
															-
														
 
															-PROJECT_ROOT = Path(__file__).resolve().parents[2]
														
 
															-sys.path.insert(0, str(PROJECT_ROOT))
														
 
															-
														
 
															-
														
 
															-@dataclass
														
 
															-class CheckResult:
														
 
															-    name: str
														
 
															-    ok: bool
														
 
															-    detail: str
														
 
															-
														
 
															-
														
 
															-def record(results: List[CheckResult], name: str, ok: bool, detail: str) -> None:
														
 
															-    results.append(CheckResult(name=name, ok=ok, detail=detail))
														
 
															-    mark = "PASS" if ok else "FAIL"
														
 
															-    print(f"[{mark}] {name}: {detail}")
														
 
															-
														
 
															-
														
 
															-async def mock_llm_call(messages, model="gpt-4o", tools=None, **kwargs):
														
 
															-    """
														
 
															-    测试专用 mock LLM：
														
 
															-    - 当有工具可用时：第一轮触发 bash_command，第二轮返回文本结论
														
 
															-    - 当是 subagent 任务时：按 prompt 类型返回固定文本
														
 
															-    """
														
 
															-    state = kwargs.get("_test_state")
														
 
															-    if isinstance(state, dict):
														
 
															-        call_no = state.get("call_no", 0)
														
 
															-        state["call_no"] = call_no + 1
														
 
															-    else:
														
 
															-        call_no = 0
														
 
															-
														
 
															-    last_user = ""
														
 
															-    for msg in reversed(messages):
														
 
															-        if msg.get("role") == "user":
														
 
															-            last_user = str(msg.get("content", ""))
														
 
															-            break
														
 
															-
														
 
															-    if "# 评估任务" in last_user:
														
 
															-        return {
														
 
															-            "content": "## 评估结论\n通过\n\n## 评估理由\n结果满足要求。",
														
 
															-            "tool_calls": None,
														
 
															-            "prompt_tokens": 10,
														
 
															-            "completion_tokens": 10,
														
 
															-            "finish_reason": "stop",
														
 
															-            "cost": 0.0,
														
 
															-        }
														
 
															-
														
 
															-    if "# 探索任务" in last_user:
														
 
															-        return {
														
 
															-            "content": "探索结论：优先采用方案 1。",
														
 
															-            "tool_calls": None,
														
 
															-            "prompt_tokens": 10,
														
 
															-            "completion_tokens": 10,
														
 
															-            "finish_reason": "stop",
														
 
															-            "cost": 0.0,
														
 
															-        }
														
 
															-
														
 
															-    if "委托" in last_user or "实现" in last_user or "继续" in last_user or "优化" in last_user:
														
 
															-        return {
														
 
															-            "content": "委托任务执行完成。",
														
 
															-            "tool_calls": None,
														
 
															-            "prompt_tokens": 10,
														
 
															-            "completion_tokens": 10,
														
 
															-            "finish_reason": "stop",
														
 
															-            "cost": 0.0,
														
 
															-        }
														
 
															-
														
 
															-    if call_no == 0 and tools:
														
 
															-        return {
														
 
															-            "content": "",
														
 
															-            "tool_calls": [
														
 
															-                {
														
 
															-                    "id": "tc_1",
														
 
															-                    "type": "function",
														
 
															-                    "function": {
														
 
															-                        "name": "bash_command",
														
 
															-                        "arguments": json.dumps(
														
 
															-                            {
														
 
															-                                "command": "echo runner_run_ok",
														
 
															-                                "description": "integration",
														
 
															-                            }
														
 
															-                        ),
														
 
															-                    },
														
 
															-                }
														
 
															-            ],
														
 
															-            "prompt_tokens": 12,
														
 
															-            "completion_tokens": 8,
														
 
															-            "finish_reason": "tool_calls",
														
 
															-            "cost": 0.0,
														
 
															-        }
														
 
															-
														
 
															-    return {
														
 
															-        "content": "run_fallback_ok",
														
 
															-        "tool_calls": None,
														
 
															-        "prompt_tokens": 8,
														
 
															-        "completion_tokens": 6,
														
 
															-        "finish_reason": "stop",
														
 
															-        "cost": 0.0,
														
 
															-    }
														
 
															-
														
 
															-
														
 
															-def check_tool_registry(results: List[CheckResult]) -> None:
														
 
															-    from agent.tools import get_tool_registry
														
 
															-
														
 
															-    registry = get_tool_registry()
														
 
															-    names = set(registry.get_tool_names())
														
 
															-
														
 
															-    core_required = {
														
 
															-        "read_file",
														
 
															-        "edit_file",
														
 
															-        "write_file",
														
 
															-        "glob_files",
														
 
															-        "grep_content",
														
 
															-        "bash_command",
														
 
															-        "skill",
														
 
															-        "list_skills",
														
 
															-        "subagent",
														
 
															-    }
														
 
															-
														
 
															-    core_missing = sorted(core_required - names)
														
 
															-    record(
														
 
															-        results,
														
 
															-        "tool_registry_core",
														
 
															-        len(core_missing) == 0,
														
 
															-        "all core tools registered" if not core_missing else f"missing: {core_missing}",
														
 
															-    )
														
 
															-
														
 
															-    browser_subset = {
														
 
															-        "browser_search_web",
														
 
															-        "browser_navigate_to_url",
														
 
															-        "browser_screenshot",
														
 
															-    }
														
 
															-    browser_missing = sorted(browser_subset - names)
														
 
															-    record(
														
 
															-        results,
														
 
															-        "tool_registry_browser",
														
 
															-        len(browser_missing) == 0,
														
 
															-        "browser tools visible" if not browser_missing else f"missing: {browser_missing}",
														
 
															-    )
														
 
															-
														
 
															-
														
 
															-async def check_file_tools(results: List[CheckResult]) -> None:
														
 
															-    from agent.tools.builtin.file.write import write_file
														
 
															-    from agent.tools.builtin.file.read import read_file
														
 
															-    from agent.tools.builtin.file.edit import edit_file
														
 
															-    from agent.tools.builtin.file.glob import glob_files
														
 
															-    from agent.tools.builtin.file.grep import grep_content
														
 
															-    from agent.tools.builtin.bash import bash_command
														
 
															-
														
 
															-    with TemporaryDirectory(prefix="agent-main-int-") as tmp:
														
 
															-        tmp_path = Path(tmp)
														
 
															-        target = tmp_path / "notes.txt"
														
 
															-
														
 
															-        wr = await write_file(file_path=str(target), content="hello\npython\nagent\n")
														
 
															-        record(results, "write_file", wr.error is None, wr.error or "write success")
														
 
															-
														
 
															-        rd = await read_file(file_path=str(target))
														
 
															-        read_ok = (rd.error is None) and ("python" in rd.output)
														
 
															-        record(results, "read_file", read_ok, rd.error or "content contains python")
														
 
															-
														
 
															-        ed = await edit_file(file_path=str(target), old_string="python", new_string="python3")
														
 
															-        record(results, "edit_file", ed.error is None, ed.error or "edit success")
														
 
															-
														
 
															-        gp = await grep_content(pattern="python3", path=str(tmp_path))
														
 
															-        grep_ok = gp.error is None and "notes.txt" in gp.output
														
 
															-        record(results, "grep_content", grep_ok, gp.error or "pattern found")
														
 
															-
														
 
															-        gb = await glob_files(pattern="**/*.txt", path=str(tmp_path))
														
 
															-        glob_ok = gb.error is None and "notes.txt" in gb.output
														
 
															-        record(results, "glob_files", glob_ok, gb.error or "glob matched")
														
 
															-
														
 
															-        bs = await bash_command(
														
 
															-            command="echo integration_ok",
														
 
															-            description="integration test",
														
 
															-            workdir=str(tmp_path),
														
 
															-        )
														
 
															-        bash_ok = bs.error is None and "integration_ok" in bs.output
														
 
															-        record(results, "bash_command", bash_ok, bs.error or "command output ok")
														
 
															-
														
 
															-
														
 
															-async def check_runner(results: List[CheckResult]) -> None:
														
 
															-    from agent.core.runner import AgentRunner
														
 
															-    from agent.trace.store import FileSystemTraceStore
														
 
															-    from agent.trace.models import Trace, Message
														
 
															-
														
 
															-    with TemporaryDirectory(prefix="agent-main-runner-") as tmp:
														
 
															-        store = FileSystemTraceStore(base_path=tmp)
														
 
															-
														
 
															-        # call 模式
														
 
															-        runner_call = AgentRunner(trace_store=store, llm_call=mock_llm_call)
														
 
															-        call_result = await runner_call.call(messages=[{"role": "user", "content": "ping"}], trace=True)
														
 
															-        call_ok = bool(call_result.trace_id) and isinstance(call_result.reply, str)
														
 
															-        record(results, "runner_call", call_ok, f"trace_id={call_result.trace_id}, reply={call_result.reply}")
														
 
															-
														
 
															-        # run 模式（含工具调用）
														
 
															-        state = {"call_no": 0}
														
 
															-
														
 
															-        async def llm_with_state(messages, model="gpt-4o", tools=None, **kwargs):
														
 
															-            kwargs["_test_state"] = state
														
 
															-            return await mock_llm_call(messages=messages, model=model, tools=tools, **kwargs)
														
 
															-
														
 
															-        runner_run = AgentRunner(trace_store=store, llm_call=llm_with_state)
														
 
															-        events: List[Any] = []
														
 
															-        async for item in runner_run.run(
														
 
															-            task="请执行一次bash并给出结果",
														
 
															-            system_prompt="你是测试助手",
														
 
															-            model="gpt-4o-mini",
														
 
															-        ):
														
 
															-            events.append(item)
														
 
															-
														
 
															-        final_trace = None
														
 
															-        assistant_texts = []
														
 
															-        for item in events:
														
 
															-            if isinstance(item, Trace):
														
 
															-                final_trace = item
														
 
															-            if isinstance(item, Message) and item.role == "assistant":
														
 
															-                content = item.content
														
 
															-                text = content.get("text", "") if isinstance(content, dict) else str(content)
														
 
															-                if text:
														
 
															-                    assistant_texts.append(text)
														
 
															-
														
 
															-        run_ok = bool(final_trace) and final_trace.status == "completed" and "run_fallback_ok" in assistant_texts
														
 
															-        record(
														
 
															-            results,
														
 
															-            "runner_run",
														
 
															-            run_ok,
														
 
															-            f"status={getattr(final_trace, 'status', 'n/a')}, assistant_count={len(assistant_texts)}",
														
 
															-        )
														
 
															-
														
 
															-
														
 
															-async def check_subagent(results: List[CheckResult]) -> None:
														
 
															-    from agent.core.runner import AgentRunner
														
 
															-    from agent.trace.store import FileSystemTraceStore
														
 
															-    from agent.trace.models import Trace
														
 
															-    from agent.trace.goal_models import GoalTree
														
 
															-    from agent.tools.builtin.subagent import subagent
														
 
															-
														
 
															-    with TemporaryDirectory(prefix="agent-main-subagent-") as tmp:
														
 
															-        store = FileSystemTraceStore(base_path=tmp)
														
 
															-        runner = AgentRunner(trace_store=store, llm_call=mock_llm_call)
														
 
															-
														
 
															-        main_trace = Trace(
														
 
															-            trace_id="main-trace",
														
 
															-            mode="agent",
														
 
															-            task="主任务",
														
 
															-            agent_type="default",
														
 
															-            status="running",
														
 
															-        )
														
 
															-        await store.create_trace(main_trace)
														
 
															-        goal_tree = GoalTree(mission="主任务")
														
 
															-        goals = goal_tree.add_goals(["验证 subagent 功能"])
														
 
															-        goal_tree.focus(goals[0].id)
														
 
															-        await store.update_goal_tree(main_trace.trace_id, goal_tree)
														
 
															-
														
 
															-        ctx = {"store": store, "trace_id": main_trace.trace_id, "goal_id": goals[0].id, "runner": runner}
														
 
															-
														
 
															-        r1 = await subagent(mode="delegate", task="实现登录", context=ctx)
														
 
															-        r2 = await subagent(mode="explore", branches=["方案A", "方案B"], background="请比较", context=ctx)
														
 
															-        r3 = await subagent(
														
 
															-            mode="evaluate",
														
 
															-            target_goal_id=goals[0].id,
														
 
															-            evaluation_input={"actual_result": "实现完成"},
														
 
															-            requirements="给出是否通过",
														
 
															-            context=ctx,
														
 
															-        )
														
 
															-        r4 = await subagent(mode="delegate", task="继续优化", continue_from=r1["sub_trace_id"], context=ctx)
														
 
															-
														
 
															-        s1 = str(r1.get("status", "")).strip()
														
 
															-        s2 = str(r2.get("status", "")).strip()
														
 
															-        s3 = str(r3.get("status", "")).strip()
														
 
															-        s4 = str(r4.get("status", "")).strip()
														
 
															-        same_trace = str(r4.get("sub_trace_id", "")).strip() == str(r1.get("sub_trace_id", "")).strip()
														
 
															-        ok = (s1 == "completed" and s2 == "completed" and s3 == "completed" and s4 == "completed" and same_trace)
														
 
															-        detail = (
														
 
															-            f"delegate={s1}, explore={s2}, evaluate={s3}, continue={s4}, continue_same={same_trace}"
														
 
															-        )
														
 
															-        record(results, "subagent_unified", ok, detail)
														
 
															-
														
 
															-
														
 
															-async def main() -> int:
														
 
															-    results: List[CheckResult] = []
														
 
															-
														
 
															-    try:
														
 
															-        check_tool_registry(results)
														
 
															-        await check_file_tools(results)
														
 
															-        await check_runner(results)
														
 
															-        await check_subagent(results)
														
 
															-    except Exception as exc:
														
 
															-        record(results, "unexpected_exception", False, repr(exc))
														
 
															-
														
 
															-    total = len(results)
														
 
															-    passed = sum(1 for r in results if r.ok)
														
 
															-    failed = total - passed
														
 
															-
														
 
															-    print("\n=== Integration Summary ===")
														
 
															-    print(f"Total: {total}")
														
 
															-    print(f"Passed: {passed}")
														
 
															-    print(f"Failed: {failed}")
														
 
															-
														
 
															-    return 0 if failed == 0 else 1
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    raise SystemExit(asyncio.run(main()))
														
--- a/examples/subagent_unified/README.md
+++ b/examples/subagent_unified/README.md
@@ -1,16 +0,0 @@
 
															-# Unified Subagent 测试
														
 
															-
														
 
															-本目录用于验证 main 分支新增的统一 `subagent` 工具能力：
														
 
															-
														
 
															-1. `mode="delegate"`
														
 
															-2. `mode="explore"`
														
 
															-3. `mode="evaluate"`
														
 
															-4. `continue_from`
														
 
															-
														
 
															-## 运行
														
 
															-
														
 
															-```bash
														
 
															-python examples/subagent_unified/run.py
														
 
															-```
														
 
															-
														
 
															-脚本使用 mock LLM，不依赖外部 API Key。
														
--- a/examples/subagent_unified/run.py
+++ b/examples/subagent_unified/run.py
@@ -1,126 +0,0 @@
 
															-"""
														
 
															-统一 subagent 工具集成测试（mock LLM）。
														
 
															-"""
														
 
															-
														
 
															-import asyncio
														
 
															-import os
														
 
															-import sys
														
 
															-from pathlib import Path
														
 
															-from tempfile import TemporaryDirectory
														
 
															-
														
 
															-sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
														
 
															-
														
 
															-from agent.core.runner import AgentRunner
														
 
															-from agent.trace.store import FileSystemTraceStore
														
 
															-from agent.trace.models import Trace
														
 
															-from agent.trace.goal_models import GoalTree
														
 
															-from agent.tools.builtin.subagent import subagent
														
 
															-
														
 
															-
														
 
															-async def mock_llm_call(messages, model="gpt-4o", tools=None, **kwargs):
														
 
															-    last_user = ""
														
 
															-    for msg in reversed(messages):
														
 
															-        if msg.get("role") == "user":
														
 
															-            last_user = str(msg.get("content", ""))
														
 
															-            break
														
 
															-
														
 
															-    if "# 评估任务" in last_user:
														
 
															-        content = "## 评估结论\n通过\n\n## 评估理由\n满足需求。"
														
 
															-    elif "# 探索任务" in last_user:
														
 
															-        content = "探索完成：建议优先采用方案 1。"
														
 
															-    else:
														
 
															-        content = "委托任务已完成。"
														
 
															-
														
 
															-    return {
														
 
															-        "content": content,
														
 
															-        "tool_calls": None,
														
 
															-        "finish_reason": "stop",
														
 
															-        "prompt_tokens": 10,
														
 
															-        "completion_tokens": 10,
														
 
															-        "cost": 0.0,
														
 
															-    }
														
 
															-
														
 
															-
														
 
															-async def run_case():
														
 
															-    with TemporaryDirectory(prefix="subagent-unified-") as tmp_dir:
														
 
															-        store = FileSystemTraceStore(base_path=tmp_dir)
														
 
															-        runner = AgentRunner(trace_store=store, llm_call=mock_llm_call)
														
 
															-
														
 
															-        # 创建主 Trace 与 GoalTree（供 subagent 作为父上下文）
														
 
															-        main_trace = Trace(
														
 
															-            trace_id="main-trace",
														
 
															-            mode="agent",
														
 
															-            task="主任务",
														
 
															-            agent_type="default",
														
 
															-            status="running",
														
 
															-        )
														
 
															-        await store.create_trace(main_trace)
														
 
															-        goal_tree = GoalTree(mission="主任务")
														
 
															-        new_goals = goal_tree.add_goals(["实现主流程"])
														
 
															-        goal_tree.focus(new_goals[0].id)
														
 
															-        await store.update_goal_tree(main_trace.trace_id, goal_tree)
														
 
															-
														
 
															-        context = {
														
 
															-            "store": store,
														
 
															-            "trace_id": main_trace.trace_id,
														
 
															-            "goal_id": new_goals[0].id,
														
 
															-            "runner": runner,
														
 
															-        }
														
 
															-
														
 
															-        # 1) delegate
														
 
															-        delegate_result = await subagent(
														
 
															-            mode="delegate",
														
 
															-            task="实现用户登录功能",
														
 
															-            context=context,
														
 
															-        )
														
 
															-        assert delegate_result["status"] == "completed", delegate_result
														
 
															-        assert delegate_result["summary"], delegate_result
														
 
															-        delegate_trace = await store.get_trace(delegate_result["sub_trace_id"])
														
 
															-        assert delegate_trace is not None
														
 
															-        assert delegate_trace.parent_trace_id == main_trace.trace_id
														
 
															-        assert delegate_trace.parent_goal_id == new_goals[0].id
														
 
															-
														
 
															-        # 2) explore
														
 
															-        explore_result = await subagent(
														
 
															-            mode="explore",
														
 
															-            branches=["JWT 方案", "Session 方案"],
														
 
															-            background="请比较维护成本和安全性。",
														
 
															-            context=context,
														
 
															-        )
														
 
															-        assert explore_result["status"] == "completed", explore_result
														
 
															-        assert "探索" in explore_result["summary"], explore_result
														
 
															-
														
 
															-        # 3) evaluate
														
 
															-        evaluate_result = await subagent(
														
 
															-            mode="evaluate",
														
 
															-            target_goal_id=new_goals[0].id,
														
 
															-            evaluation_input={"actual_result": "已实现登录接口并通过单元测试"},
														
 
															-            requirements="请评估是否满足安全和可维护性要求。",
														
 
															-            context=context,
														
 
															-        )
														
 
															-        assert evaluate_result["status"] == "completed", evaluate_result
														
 
															-        assert "评估结论" in evaluate_result["summary"], evaluate_result
														
 
															-
														
 
															-        # 4) continue_from
														
 
															-        continue_result = await subagent(
														
 
															-            mode="delegate",
														
 
															-            task="继续补充边界条件处理",
														
 
															-            continue_from=delegate_result["sub_trace_id"],
														
 
															-            context=context,
														
 
															-        )
														
 
															-        assert continue_result["status"] == "completed", continue_result
														
 
															-        assert continue_result["sub_trace_id"] == delegate_result["sub_trace_id"]
														
 
															-        assert continue_result["continue_from"] is True
														
 
															-
														
 
															-        print("✅ unified subagent tests passed")
														
 
															-        print(f"delegate: {delegate_result['sub_trace_id']}")
														
 
															-        print(f"explore : {explore_result['sub_trace_id']}")
														
 
															-        print(f"evaluate: {evaluate_result['sub_trace_id']}")
														
 
															-
														
 
															-
														
 
															-def main():
														
 
															-    asyncio.run(run_case())
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    main()