пре 13 часа · 0c0a71d71a
--- a/agent/core/runner.py
+++ b/agent/core/runner.py
@@ -555,7 +555,7 @@ class AgentRunner:
 
															         goal_tree = self.goal_tree or GoalTree(mission=task_name)
														
 
															         if self.trace_store:
														
 
															-            await self.trace_store.create_trace(trace_obj)
														
 
															+            await self.trace_store.create_trace(trace_obj, stage_name=config.name)
														
 
															             await self.trace_store.update_goal_tree(trace_id, goal_tree)
														
 
															         return trace_obj, goal_tree, 1
														
--- a/agent/trace/store.py
+++ b/agent/trace/store.py
@@ -40,9 +40,57 @@ class FileSystemTraceStore:
 
															         self.base_path = Path(base_path)
														
 
															         self.base_path.mkdir(exist_ok=True)
														
 
															-    def _get_trace_dir(self, trace_id: str) -> Path:
														
 
															-        """获取 trace 目录"""
														
 
															-        return self.base_path / trace_id
														
 
															+    def _get_trace_dir(self, trace_id: str, parent_trace_id: Optional[str] = None, stage_name: Optional[str] = None) -> Path:
														
 
															+        """
														
 
															+        获取 trace 目录。
														
 
															+
														
 
															+        如果提供 parent_trace_id 和 stage_name，则创建在父目录的 agents/ 子目录下：
														
 
															+        - {base_path}/{parent_trace_id}/agents/{stage_name}-{trace_id_suffix}/
														
 
															+
														
 
															+        如果只提供 trace_id，则智能查找：
														
 
															+        1. 先查根目录 {base_path}/{trace_id}/
														
 
															+        2. 再查所有 agents/ 子目录（用于读取已存在的子 trace）
														
 
															+
														
 
															+        Args:
														
 
															+            trace_id: Trace ID
														
 
															+            parent_trace_id: 父 Trace ID（创建子 trace 时提供）
														
 
															+            stage_name: 阶段名称（创建子 trace 时提供）
														
 
															+        """
														
 
															+        if parent_trace_id and stage_name:
														
 
															+            # 创建子 trace：放在父目录的 agents/ 下
														
 
															+            parent_dir = self.base_path / parent_trace_id / "agents"
														
 
															+            # 使用 stage_name + trace_id 后8位作为目录名
														
 
															+            trace_id_suffix = trace_id.split('-')[-1][:8]
														
 
															+            dir_name = f"{stage_name}-{trace_id_suffix}"
														
 
															+            return parent_dir / dir_name
														
 
															+
														
 
															+        # 智能查找：先查根目录
														
 
															+        root_dir = self.base_path / trace_id
														
 
															+        if root_dir.exists():
														
 
															+            return root_dir
														
 
															+
														
 
															+        # 再查所有 agents/ 子目录（用于读取已存在的子 trace）
														
 
															+        for parent_dir in self.base_path.iterdir():
														
 
															+            if not parent_dir.is_dir():
														
 
															+                continue
														
 
															+            agents_dir = parent_dir / "agents"
														
 
															+            if not agents_dir.exists():
														
 
															+                continue
														
 
															+            for sub_dir in agents_dir.iterdir():
														
 
															+                if not sub_dir.is_dir():
														
 
															+                    continue
														
 
															+                # 检查 meta.json 中的 trace_id
														
 
															+                meta_file = sub_dir / "meta.json"
														
 
															+                if meta_file.exists():
														
 
															+                    try:
														
 
															+                        data = json.loads(meta_file.read_text(encoding="utf-8"))
														
 
															+                        if data.get("trace_id") == trace_id:
														
 
															+                            return sub_dir
														
 
															+                    except Exception:
														
 
															+                        continue
														
 
															+
														
 
															+        # 找不到则返回根目录（向后兼容）
														
 
															+        return root_dir
														
 
															     def _get_meta_file(self, trace_id: str) -> Path:
														
 
															         """获取 meta.json 文件路径"""
														
@@ -70,21 +118,34 @@ class FileSystemTraceStore:
 
															     # ===== Trace 操作 =====
														
 
															-    async def create_trace(self, trace: Trace) -> str:
														
 
															-        """创建新的 Trace"""
														
 
															-        trace_dir = self._get_trace_dir(trace.trace_id)
														
 
															-        trace_dir.mkdir(exist_ok=True)
														
 
															+    async def create_trace(self, trace: Trace, stage_name: Optional[str] = None) -> str:
														
 
															+        """
														
 
															+        创建新的 Trace。
														
 
															+
														
 
															+        Args:
														
 
															+            trace: Trace 对象
														
 
															+            stage_name: 阶段名称（创建子 trace 时提供，用于目录命名）
														
 
															+        """
														
 
															+        # 如果有 parent_trace_id，使用层级化目录结构
														
 
															+        if trace.parent_trace_id:
														
 
															+            # 使用 stage_name 或 trace.task 作为目录名前缀
														
 
															+            dir_stage_name = stage_name or trace.task or "subtrace"
														
 
															+            trace_dir = self._get_trace_dir(trace.trace_id, trace.parent_trace_id, dir_stage_name)
														
 
															+        else:
														
 
															+            trace_dir = self._get_trace_dir(trace.trace_id)
														
 
															+
														
 
															+        trace_dir.mkdir(parents=True, exist_ok=True)
														
 
															         # 创建 messages 目录
														
 
															-        messages_dir = self._get_messages_dir(trace.trace_id)
														
 
															+        messages_dir = trace_dir / "messages"
														
 
															         messages_dir.mkdir(exist_ok=True)
														
 
															         # 写入 meta.json
														
 
															-        meta_file = self._get_meta_file(trace.trace_id)
														
 
															+        meta_file = trace_dir / "meta.json"
														
 
															         meta_file.write_text(json.dumps(trace.to_dict(), indent=2, ensure_ascii=False), encoding="utf-8")
														
 
															         # 创建空的 events.jsonl
														
 
															-        events_file = self._get_events_file(trace.trace_id)
														
 
															+        events_file = trace_dir / "events.jsonl"
														
 
															         events_file.touch()
														
 
															         return trace.trace_id
														
--- a/pipeline_visualize.py
+++ b/pipeline_visualize.py
@@ -281,6 +281,7 @@ def _render_coarse_filter(d: dict) -> str:
 
															     total = d.get("total_count", len(log))
														
 
															     passed_cnt = d.get("passed_count", 0)
														
 
															     rejected_cnt = d.get("rejected_count", 0)
														
 
															+    low_score_cnt = d.get("low_score_count", 0)
														
 
															     after_cnt = d.get("after_filter_count", 0)
														
 
															     if not log:
														
@@ -289,41 +290,84 @@ def _render_coarse_filter(d: dict) -> str:
 
															     parts: list[str] = []
														
 
															     # 统计概览
														
 
															+    low_score_html = (
														
 
															+        f'<span class="stat-pill stat-low-score">低分淘汰 {low_score_cnt}</span>'
														
 
															+        if low_score_cnt else ""
														
 
															+    )
														
 
															     parts.append(
														
 
															         '<div class="decision-section">'
														
 
															         f'<div class="section-title">📊 粗筛统计</div>'
														
 
															         f'<span class="stat-pill stat-accept">通过 {passed_cnt}</span>'
														
 
															-        f'<span class="stat-pill stat-reject">淘汰 {rejected_cnt}</span>'
														
 
															+        f'<span class="stat-pill stat-reject">语义淘汰 {rejected_cnt}</span>'
														
 
															+        f'{low_score_html}'
														
 
															         '</div>'
														
 
															     )
														
 
															-    # 通过的文章
														
 
															+    # 通过的文章（按 score 降序）
														
 
															     passed = [r for r in log if r.get("status") == "pass"]
														
 
															+    passed.sort(key=lambda r: int(r.get("score", 0)), reverse=True)
														
 
															     if passed:
														
 
															         rows = []
														
 
															         for idx, r in enumerate(passed, 1):
														
 
															             title = _esc(r.get("title", ""))
														
 
															             url = _esc(r.get("url", ""))
														
 
															-            reason = _esc(r.get("reason", ""))
														
 
															             src_kw = _esc(r.get("source_keyword", ""))
														
 
															+            score = r.get("score", 0)
														
 
															+            features = r.get("features", [])
														
 
															+            features_html = " ".join(
														
 
															+                f'<span class="tag tag-blue">{_esc(f)}</span>' for f in features
														
 
															+            ) if features else '<span class="tag">无特征</span>'
														
 
															             rows.append(
														
 
															                 f'<tr class="row-accept">'
														
 
															                 f'<td class="num-cell">{idx}</td>'
														
 
															                 f'<td class="article-title-cell"><a href="{url}" target="_blank">{title}</a></td>'
														
 
															                 f'<td><code>{src_kw}</code></td>'
														
 
															-                f'<td class="reason-full-cell">{reason}</td>'
														
 
															+                f'<td class="num-cell"><b>{score}</b></td>'
														
 
															+                f'<td>{features_html}</td>'
														
 
															                 f'</tr>'
														
 
															             )
														
 
															         parts.append(
														
 
															             '<div class="decision-section">'
														
 
															             f'<div class="section-title">✅ 通过文章（{len(passed)} 篇）</div>'
														
 
															             '<table class="decision-table review-table">'
														
 
															-            '<thead><tr><th>#</th><th>标题</th><th>来源词</th><th>理由</th></tr></thead>'
														
 
															+            '<thead><tr><th>#</th><th>标题</th><th>来源词</th><th>爆款分</th><th>匹配特征</th></tr></thead>'
														
 
															             '<tbody>' + "\n".join(rows) + '</tbody>'
														
 
															             '</table></div>'
														
 
															         )
														
 
															-    # 淘汰的文章
														
 
															+    # 低分淘汰的文章
														
 
															+    low_score = [r for r in log if r.get("status") == "low_score"]
														
 
															+    low_score.sort(key=lambda r: int(r.get("score", 0)), reverse=True)
														
 
															+    if low_score:
														
 
															+        rows = []
														
 
															+        for idx, r in enumerate(low_score, 1):
														
 
															+            title = _esc(r.get("title", ""))
														
 
															+            url = _esc(r.get("url", ""))
														
 
															+            src_kw = _esc(r.get("source_keyword", ""))
														
 
															+            score = r.get("score", 0)
														
 
															+            features = r.get("features", [])
														
 
															+            features_html = " ".join(
														
 
															+                f'<span class="tag">{_esc(f)}</span>' for f in features
														
 
															+            ) if features else '<span class="tag">无特征</span>'
														
 
															+            rows.append(
														
 
															+                f'<tr class="row-low-score">'
														
 
															+                f'<td class="num-cell">{idx}</td>'
														
 
															+                f'<td class="article-title-cell"><a href="{url}" target="_blank">{title}</a></td>'
														
 
															+                f'<td><code>{src_kw}</code></td>'
														
 
															+                f'<td class="num-cell">{score}</td>'
														
 
															+                f'<td>{features_html}</td>'
														
 
															+                f'</tr>'
														
 
															+            )
														
 
															+        parts.append(
														
 
															+            '<div class="decision-section">'
														
 
															+            f'<div class="section-title">📉 低分淘汰（{len(low_score)} 篇）</div>'
														
 
															+            '<table class="decision-table review-table">'
														
 
															+            '<thead><tr><th>#</th><th>标题</th><th>来源词</th><th>爆款分</th><th>匹配特征</th></tr></thead>'
														
 
															+            '<tbody>' + "\n".join(rows) + '</tbody>'
														
 
															+            '</table></div>'
														
 
															+        )
														
 
															+
														
 
															+    # 语义淘汰的文章
														
 
															     rejected = [r for r in log if r.get("status") == "reject"]
														
 
															     if rejected:
														
 
															         rows = []
														
@@ -342,7 +386,7 @@ def _render_coarse_filter(d: dict) -> str:
 
															             )
														
 
															         parts.append(
														
 
															             '<div class="decision-section">'
														
 
															-            f'<div class="section-title">❌ 淘汰文章（{len(rejected)} 篇）</div>'
														
 
															+            f'<div class="section-title">❌ 语义淘汰（{len(rejected)} 篇）</div>'
														
 
															             '<table class="decision-table review-table">'
														
 
															             '<thead><tr><th>#</th><th>标题</th><th>来源词</th><th>理由</th></tr></thead>'
														
 
															             '<tbody>' + "\n".join(rows) + '</tbody>'
														
@@ -1563,9 +1607,11 @@ header .sub span {{ margin:0 6px; }}
 
															 }}
														
 
															 .row-accept td {{ border-left:2px solid var(--green); }}
														
 
															 .row-reject td {{ border-left:2px solid var(--red); }}
														
 
															+.row-low-score td {{ border-left:2px solid var(--yellow); }}
														
 
															 .row-skip td {{ border-left:2px solid var(--dim); }}
														
 
															 .stat-accept {{ background:rgba(86,211,100,.1); border-color:rgba(86,211,100,.3); color:var(--green); }}
														
 
															 .stat-reject {{ background:rgba(248,81,73,.1); border-color:rgba(248,81,73,.3); color:var(--red); }}
														
 
															+.stat-low-score {{ background:rgba(227,179,65,.1); border-color:rgba(227,179,65,.3); color:var(--yellow); }}
														
 
															 .stat-skip {{ background:rgba(139,148,158,.1); border-color:rgba(139,148,158,.3); color:var(--dim); }}
														
 
															 .acct-table .sample-titles {{ font-size:11px; color:var(--dim); }}
														
 
															 .file-path {{ font-size:11px; color:var(--dim); background:rgba(139,148,158,.08); padding:3px 8px; border-radius:4px; }}
														
@@ -1851,7 +1897,7 @@ def main() -> None:
 
															         print(f"📋 读取了 {len(full_log_lines)} 行完整日志")
														
 
															     html_content = render_html(events, full_log_lines=full_log_lines)
														
 
															-    out_path = trace_dir / "pipeline_trace.html"
														
 
															+    out_path = trace_dir / "执行结果.html"
														
 
															     out_path.write_text(html_content, encoding="utf-8")
														
 
															     size_kb = out_path.stat().st_size / 1024
														
 
															     print(f"✅ 已生成: {out_path}  ({size_kb:.0f} KB)")
														
--- a/run_search_agent.py
+++ b/run_search_agent.py
@@ -1,21 +1,7 @@
 
															 """
														
 
															-Search Agent Harness — 约束驱动的搜索 Agent 入口。
														
 
															+Search Agent 统一入口
														
 
															-Harness Engineering 分层：
														
 
															-  1. Budget Harness   — 显式限定运行预算（超时、迭代上限、召回上限）
														
 
															-  2. Planner Harness  — 启动前打印运行计划，明确每阶段目标与约束
														
 
															-  3. Observer Harness — 结构化进度回调，暴露关键检查点状态
														
 
															-  4. Fallback Harness — DB 策略失败 / API Key 缺失的显式降级路径
														
 
															-
														
 
															-前置：
														
 
															-- OPEN_ROUTER_API_KEY
														
 
															-- 可选：SEARCH_AGENT_DB_* 与表 search_agent_strategy（见 docs/search_agent_strategy.sql）
														
 
															-
														
 
															-环境变量：
														
 
															-- PIPELINE_QUERY       / 默认 "伊朗、以色列、和平是永恒的主题"
														
 
															-- PIPELINE_DEMAND_ID   / 默认 "1"
														
 
															-- PIPELINE_TIMEOUT     / 整个 Agent 超时秒数，默认 1800（30 分钟）
														
 
															-- PIPELINE_TARGET_COUNT / 目标文章数，默认取 RuntimePipelineConfig
														
 
															+简化为薄壳，所有逻辑委托给 application 层。
														
 
															 """
														
 
															 from __future__ import annotations
														
@@ -23,383 +9,80 @@ from __future__ import annotations
 
															 import asyncio
														
 
															 import logging
														
 
															 import os
														
 
															-import shutil
														
 
															-import sys
														
 
															-import tempfile
														
 
															-import time
														
 
															-from dataclasses import dataclass, field
														
 
															-from typing import Optional
														
 
															 from uuid import uuid4
														
 
															 from dotenv import load_dotenv
														
 
															-from src.domain.search.core import SearchAgentCore
														
 
															-from src.domain.search.policy import SearchAgentPolicy
														
 
															-
														
 
															-load_dotenv()
														
 
															-
														
 
															-# ── 日志级别由环境变量控制 ────────────
														
 
															-_LOG_LEVEL = os.getenv("LOG_LEVEL", "DEBUG").upper()
														
 
															-_CONSOLE_LEVEL = os.getenv("CONSOLE_LOG_LEVEL", "INFO").upper()
														
 
															-_LOG_FMT = "%(asctime)s | %(levelname)-7s | %(name)s | %(message)s"
														
 
															-_LOG_DATEFMT = "%Y-%m-%d %H:%M:%S"
														
 
															-
														
 
															-# 全局文件 handler 引用，供 main() 移动日志文件
														
 
															-_file_handler: Optional[logging.FileHandler] = None
														
 
															-_tmp_log_path: Optional[str] = None
														
 
															-
														
 
															-
														
 
															-def _setup_logging() -> None:
														
 
															-    """
														
 
															-    配置双通道日志：console（INFO）+ file（DEBUG）。
														
 
															-
														
 
															-    全量日志写入临时文件，pipeline 完成后移入 trace 目录。
														
 
															-    """
														
 
															-    global _file_handler, _tmp_log_path
														
 
															-
														
 
															-    root = logging.getLogger()
														
 
															-    root.setLevel(getattr(logging, _LOG_LEVEL, logging.DEBUG))
														
 
															-
														
 
															-    formatter = logging.Formatter(fmt=_LOG_FMT, datefmt=_LOG_DATEFMT)
														
 
															-
														
 
															-    console = logging.StreamHandler(sys.__stdout__)
														
 
															-    console.setLevel(getattr(logging, _CONSOLE_LEVEL, logging.INFO))
														
 
															-    console.setFormatter(formatter)
														
 
															-    root.addHandler(console)
														
 
															-
														
 
															-    tmp = tempfile.NamedTemporaryFile(
														
 
															-        delete=False, suffix=".log", prefix="search_agent_", mode="w", encoding="utf-8",
														
 
															-    )
														
 
															-    _tmp_log_path = tmp.name
														
 
															-    tmp.close()
														
 
															-
														
 
															-    _file_handler = logging.FileHandler(_tmp_log_path, mode="w", encoding="utf-8")
														
 
															-    _file_handler.setLevel(logging.DEBUG)
														
 
															-    _file_handler.setFormatter(formatter)
														
 
															-    root.addHandler(_file_handler)
														
 
															-    for noisy in ("httpx", "httpcore", "urllib3", "asyncio"):
														
 
															-        logging.getLogger(noisy).setLevel(logging.WARNING)
														
 
															+from src.config.settings import get_config
														
 
															+from src.application import ApplicationRunner
														
 
															+from src.harness.search_agent import (
														
 
															+    finalize_search_agent_log,
														
 
															+    log_environment_profile,
														
 
															+    load_environment_profile,
														
 
															+    print_run_plan,
														
 
															+    setup_search_agent_logging,
														
 
															+    validate_prerequisites,
														
 
															+)
														
 
															-    # agent 内核日志不写入全量日志文件（减少噪音）
														
 
															-    # 过滤 agent.core.runner / agent.llm.* / agent.tools.* / agent.trace.* 等
														
 
															-    class _AgentLogFilter(logging.Filter):
														
 
															-        def filter(self, record: logging.LogRecord) -> bool:
														
 
															-            return not record.name.startswith("agent.")
														
 
															-
														
 
															-    _file_handler.addFilter(_AgentLogFilter())
														
 
															-
														
 
															-
														
 
															-_setup_logging()
														
 
															+load_dotenv()
														
 
															+setup_search_agent_logging()
														
 
															+logging.getLogger("agent").setLevel(logging.CRITICAL)
														
 
															 logger = logging.getLogger(__name__)
														
 
															-# ─────────────────────────────────────────────
														
 
															-# 1. Budget Harness — 运行预算约束
														
 
															-# ─────────────────────────────────────────────
														
 
															-
														
 
															-@dataclass
														
 
															-class AgentBudget:
														
 
															-    """
														
 
															-    显式声明 Agent 可消耗的资源上限。
														
 
															-
														
 
															-    约束驱动原则：
														
 
															-    - 所有上限必须在启动前确定，不允许在运行中隐式扩张。
														
 
															-    - 超时由 harness 层统一兜底，不依赖各 Stage 自己的超时。
														
 
															-    """
														
 
															-    timeout_seconds: int = 1800         # 整体超时（30 分钟）
														
 
															-    max_target_count: int = 10          # 单次运行最多产出文章数（防止无限扩张）
														
 
															-    max_fallback_rounds: int = 1        # content_search gate fallback 最大轮次（防止死循环）
														
 
															-
														
 
															-    @classmethod
														
 
															-    def from_env(cls) -> "AgentBudget":
														
 
															-        return cls(
														
 
															-            timeout_seconds=int(os.getenv("PIPELINE_TIMEOUT", "1800")),
														
 
															-            max_target_count=int(os.getenv("PIPELINE_MAX_TARGET_COUNT", "10")),
														
 
															-            max_fallback_rounds=int(os.getenv("PIPELINE_MAX_FALLBACK_ROUNDS", "1")),
														
 
															-        )
														
 
															-
														
 
															-    def validate(self) -> None:
														
 
															-        """前置断言：预算参数必须在合理范围内。"""
														
 
															-        if self.timeout_seconds < 30:
														
 
															-            raise ValueError(f"timeout_seconds 至少 30 秒，当前: {self.timeout_seconds}")
														
 
															-        if self.max_target_count < 1 or self.max_target_count > 200:
														
 
															-            raise ValueError(f"max_target_count 须在 [1, 200]，当前: {self.max_target_count}")
														
 
															-        if self.max_fallback_rounds < 0 or self.max_fallback_rounds > 5:
														
 
															-            raise ValueError(f"max_fallback_rounds 须在 [0, 5]，当前: {self.max_fallback_rounds}")
														
 
															-
														
 
															-
														
 
															-# ─────────────────────────────────────────────
														
 
															-# 2. Observer Harness — 结构化运行摘要
														
 
															-# ─────────────────────────────────────────────
														
 
															-
														
 
															-@dataclass
														
 
															-class RunSummary:
														
 
															-    """
														
 
															-    Agent 运行后的结构化摘要（非裸日志）。
														
 
															-
														
 
															-    设计意图：
														
 
															-    - 调用方可检查 success / error_message 决定后续动作。
														
 
															-    - 关键指标（candidate_count / filtered_count）可接入告警。
														
 
															-    """
														
 
															-    success: bool
														
 
															-    query: str
														
 
															-    demand_id: str
														
 
															-    policy_source: str = "unknown"      # "db" | "default" | "override"
														
 
															-    trace_id: Optional[str] = None
														
 
															-    output_file: str = ""
														
 
															-    candidate_count: int = 0
														
 
															-    filtered_count: int = 0
														
 
															-    account_count: int = 0
														
 
															-    elapsed_seconds: float = 0.0
														
 
															-    error_message: str = ""
														
 
															-    stage_history: list = field(default_factory=list)
														
 
															-
														
 
															-    def log(self) -> None:
														
 
															-        """结构化打印运行摘要。"""
														
 
															-        status = "✅ 成功" if self.success else "❌ 失败"
														
 
															-        logger.info("=" * 60)
														
 
															-        logger.info("Agent 运行摘要 %s", status)
														
 
															-        logger.info("  query        : %s", self.query)
														
 
															-        logger.info("  demand_id    : %s", self.demand_id)
														
 
															-        logger.info("  policy_source: %s", self.policy_source)
														
 
															-        logger.info("  trace_id     : %s", self.trace_id)
														
 
															-        logger.info("  output_file  : %s", self.output_file)
														
 
															-        logger.info("  候选文章数    : %d", self.candidate_count)
														
 
															-        logger.info("  入选文章数    : %d", self.filtered_count)
														
 
															-        logger.info("  账号数        : %d", self.account_count)
														
 
															-        logger.info("  耗时          : %.1f 秒", self.elapsed_seconds)
														
 
															-        if self.error_message:
														
 
															-            logger.error("  错误信息      : %s", self.error_message)
														
 
															-        if self.stage_history:
														
 
															-            logger.info("  阶段历史:")
														
 
															-            for record in self.stage_history:
														
 
															-                status_flag = "✓" if record.get("status") == "completed" else "✗"
														
 
															-                logger.info(
														
 
															-                    "    %s %-28s attempt=%d",
														
 
															-                    status_flag,
														
 
															-                    record.get("stage_name", "?"),
														
 
															-                    record.get("attempt", 1),
														
 
															-                )
														
 
															-        logger.info("=" * 60)
														
 
															-
														
 
															-
														
 
															-# ─────────────────────────────────────────────
														
 
															-# 3. Planner Harness — 启动前打印运行计划
														
 
															-# ─────────────────────────────────────────────
														
 
															-
														
 
															-def print_run_plan(query: str, demand_id: str, budget: AgentBudget, trace_id: str) -> dict:
														
 
															-    """
														
 
															-    在 Agent 启动前打印结构化运行计划，并返回计划数据供 trace 使用。
														
 
															-
														
 
															-    目的：
														
 
															-    - 使运行意图可见、可审计，便于调试和追溯。
														
 
															-    - 明确各阶段目标与约束，防止"黑盒"执行。
														
 
															-    """
														
 
															-    logger.info("=" * 60)
														
 
															-    logger.info("▶ Search Agent 运行计划")
														
 
															-    logger.info("  Trace ID   : %s", trace_id)
														
 
															-    logger.info("  Query      : %s", query)
														
 
															-    logger.info("  Demand ID  : %s", demand_id or "(未指定，使用 default 策略)")
														
 
															-    logger.info("  超时上限    : %d 秒", budget.timeout_seconds)
														
 
															-    logger.info("  目标文章上限 : %d 篇", budget.max_target_count)
														
 
															-    logger.info("  最大补召回轮次: %d 轮", budget.max_fallback_rounds)
														
 
															-    logger.info("")
														
 
															-    logger.info("  阶段规划:")
														
 
															-    logger.info("    1. [demand_analysis   ]  ← 需求理解，产出搜索策略（无工具调用）")
														
 
															-    logger.info("    2. [content_search    ]  ← 按关键词召回候选文章")
														
 
															-    logger.info("       └─ Gate: SearchCompletenessGate — 候选不足则 abort")
														
 
															-    logger.info("    3. [hard_filter       ]  ← 去重 + URL / 时间基础校验")
														
 
															-    logger.info("    4. [coarse_filter     ]  ← LLM 标题语义粗筛")
														
 
															-    logger.info("    5. [quality_filter    ]  ← 数据指标评分 + LLM 正文精排")
														
 
															-    logger.info("       └─ Gate: FilterSufficiencyGate — 不足则回退补召回（最多 %d 轮）",
														
 
															-                budget.max_fallback_rounds)
														
 
															-    logger.info("    6. [account_precipitate] ← 账号信息沉淀")
														
 
															-    logger.info("    7. [output_persist    ]  ← 输出结构化 JSON")
														
 
															-    logger.info("       └─ Gate: OutputSchemaGate — 结构校验")
														
 
															-    logger.info("=" * 60)
														
 
															-
														
 
															-    return {
														
 
															-        "trace_id": trace_id,
														
 
															-        "query": query,
														
 
															-        "demand_id": demand_id or "",
														
 
															-        "timeout_seconds": budget.timeout_seconds,
														
 
															-        "max_target_count": budget.max_target_count,
														
 
															-        "max_fallback_rounds": budget.max_fallback_rounds,
														
 
															-        "stages": [
														
 
															-            {"name": "demand_analysis", "label": "需求理解，产出搜索策略"},
														
 
															-            {"name": "content_search", "label": "按关键词召回候选文章", "gate": "SearchCompletenessGate"},
														
 
															-            {"name": "hard_filter", "label": "去重 + 基础规则过滤"},
														
 
															-            {"name": "coarse_filter", "label": "LLM 标题语义粗筛"},
														
 
															-            {"name": "quality_filter", "label": "数据指标评分 + LLM 正文精排", "gate": "FilterSufficiencyGate"},
														
 
															-            {"name": "account_precipitate", "label": "账号信息沉淀"},
														
 
															-            {"name": "output_persist", "label": "输出结构化 JSON", "gate": "OutputSchemaGate"},
														
 
															-        ],
														
 
															-    }
														
 
															-
														
 
															-
														
 
															-# ─────────────────────────────────────────────
														
 
															-# 4. Fallback Harness — 前置检查与降级路径
														
 
															-# ─────────────────────────────────────────────
														
 
															-
														
 
															-def validate_prerequisites() -> None:
														
 
															-    """
														
 
															-    前置条件检查（Harness 级别，不依赖 Core 内部检查）。
														
 
															-
														
 
															-    设计意图：
														
 
															-    - 把必须满足的约束提升到最外层，让失败快速、信息明确。
														
 
															-    - 避免在深层 Stage 里才触发 "OPEN_ROUTER_API_KEY 未设置"。
														
 
															-    """
														
 
															-    api_key = os.getenv("OPEN_ROUTER_API_KEY", "").strip()
														
 
															-    if not api_key:
														
 
															-        raise EnvironmentError(
														
 
															-            "缺少必要环境变量: OPEN_ROUTER_API_KEY\n"
														
 
															-            "请在 .env 文件或系统环境中设置该变量后重试。"
														
 
															-        )
														
 
															-
														
 
															-
														
 
															-# ─────────────────────────────────────────────
														
 
															-# 5. 主流程 — Harness 统一编排
														
 
															-# ─────────────────────────────────────────────
														
 
															-
														
 
															-async def run_with_harness(
														
 
															-    query: str,
														
 
															-    demand_id: str,
														
 
															-    budget: AgentBudget,
														
 
															-    trace_id: str,
														
 
															-    use_db_policy: bool = True,
														
 
															-    run_plan: dict | None = None,
														
 
															-) -> RunSummary:
														
 
															-    """
														
 
															-    带 Harness 的 Agent 执行入口。
														
 
															-
														
 
															-    职责分层：
														
 
															-    - 本函数只做"约束注入 + 超时包裹 + 摘要采集"。
														
 
															-    - 业务逻辑委托给 SearchAgentCore。
														
 
															-    - 不在这里写 if/else 业务判断。
														
 
															-    """
														
 
															-
														
 
															-    start = time.monotonic()
														
 
															-    summary = RunSummary(success=False, query=query, demand_id=demand_id, trace_id=trace_id)
														
 
															-
														
 
															-    # --- 策略来源标记（Observer 用） ---
														
 
															-    core = SearchAgentCore()
														
 
															-    policy_override: Optional[SearchAgentPolicy] = None
														
 
															-
														
 
															-    if use_db_policy:
														
 
															-        try:
														
 
															-            # 预读策略仅用于确认 DB 连通性和标记来源；
														
 
															-            # SearchAgentCore.run() 内部会用同一 demand_id 再次加载。
														
 
															-            await core.load_policy(demand_id or None)
														
 
															-            summary.policy_source = "db"
														
 
															-            logger.info("策略已从 DB 加载: demand_id=%s", demand_id)
														
 
															-        except Exception as exc:
														
 
															-            logger.warning("DB 策略读取失败，降级为默认策略: %s", exc)
														
 
															-            policy_override = SearchAgentPolicy.defaults()
														
 
															-            summary.policy_source = "default(fallback)"
														
 
															-    else:
														
 
															-        policy_override = SearchAgentPolicy.defaults()
														
 
															-        summary.policy_source = "default"
														
 
															-
														
 
															-    # --- 预算注入：target_count 不超过 max_target_count ---
														
 
															-    from src.pipeline.config.pipeline_config import RuntimePipelineConfig
														
 
															-    runtime = RuntimePipelineConfig.from_env()
														
 
															-    effective_target = min(runtime.target_count, budget.max_target_count)
														
 
															-    if effective_target != runtime.target_count:
														
 
															-        logger.info(
														
 
															-            "target_count 被 Budget Harness 限制: %d → %d",
														
 
															-            runtime.target_count,
														
 
															-            effective_target,
														
 
															-        )
														
 
															-
														
 
															-    # --- 超时包裹执行 ---
														
 
															-    try:
														
 
															-        ctx = await asyncio.wait_for(
														
 
															-            core.run(
														
 
															-                query=query,
														
 
															-                demand_id=demand_id,
														
 
															-                target_count=effective_target,
														
 
															-                use_db_policy=(policy_override is None),
														
 
															-                policy_override=policy_override,
														
 
															-                trace_id=trace_id,
														
 
															-                run_plan=run_plan,
														
 
															-            ),
														
 
															-            timeout=budget.timeout_seconds,
														
 
															-        )
														
 
															-    except asyncio.TimeoutError:
														
 
															-        summary.elapsed_seconds = time.monotonic() - start
														
 
															-        summary.error_message = f"Agent 超时（>{budget.timeout_seconds}s），已中止"
														
 
															-        logger.error(summary.error_message)
														
 
															-        return summary
														
 
															-    except Exception as exc:
														
 
															-        summary.elapsed_seconds = time.monotonic() - start
														
 
															-        summary.error_message = str(exc)
														
 
															-        logger.exception("Agent 运行异常: %s", exc)
														
 
															-        return summary
														
 
															-
														
 
															-    # --- 采集 Observer 摘要 ---
														
 
															-    summary.success = True
														
 
															-    summary.output_file = ctx.metadata.get("output_file", "")
														
 
															-    summary.candidate_count = len(ctx.candidate_articles)
														
 
															-    summary.filtered_count = len(ctx.filtered_articles)
														
 
															-    summary.account_count = len(ctx.accounts)
														
 
															-    summary.elapsed_seconds = time.monotonic() - start
														
 
															-    summary.stage_history = [
														
 
															-        {
														
 
															-            "stage_name": r.stage_name,
														
 
															-            "status": r.status,
														
 
															-            "attempt": r.attempt,
														
 
															-        }
														
 
															-        for r in ctx.stage_history
														
 
															-    ]
														
 
															-    return summary
														
 
															-
														
 
															-
														
 
															 async def main() -> None:
														
 
															-    # ① 前置检查（Fallback Harness）
														
 
															+    """主入口"""
														
 
															+    # 前置检查
														
 
															     validate_prerequisites()
														
 
															-    # ② 读取运行参数
														
 
															-    query = os.getenv("PIPELINE_QUERY", "伊朗以色列冲突、中老年人会关注什么？")
														
 
															-    demand_id = os.getenv("PIPELINE_DEMAND_ID", "1")
														
 
															+    # 加载配置
														
 
															+    config = get_config()
														
 
															+    environment = load_environment_profile()
														
 
															+    log_environment_profile(environment)
														
 
															-    # ③ 预算约束（Budget Harness）
														
 
															-    budget = AgentBudget.from_env()
														
 
															-    budget.validate()
														
 
															-
														
 
															-    # ④ 生成全局 trace_id，贯穿整个运行周期
														
 
															+    # 读取参数
														
 
															+    query = os.getenv("PIPELINE_QUERY", "当谈到毛主席的生平、丰功伟绩、伟人伟绩、老年人会关注什么？")
														
 
															+    demand_id = os.getenv("PIPELINE_DEMAND_ID", "1")
														
 
															     trace_id = str(uuid4())
														
 
															+
														
 
															     logger.info("Trace ID: %s", trace_id)
														
 
															-    # ⑤ 运行计划（Planner Harness）
														
 
															+    # 打印运行计划
														
 
															+    from src.application.runner import AgentBudget
														
 
															+    budget = AgentBudget.from_config(config)
														
 
															+    budget.validate()
														
 
															+
														
 
															     run_plan = print_run_plan(query=query, demand_id=demand_id, budget=budget, trace_id=trace_id)
														
 
															+    run_plan["environment"] = {
														
 
															+        "env_name": environment.env_name,
														
 
															+        "use_db_policy": environment.use_db_policy,
														
 
															+        "strategy_source": environment.strategy_source,
														
 
															+    }
														
 
															-    # ⑥ 执行（带约束 + 观测）
														
 
															-    summary = await run_with_harness(
														
 
															+    # 执行
														
 
															+    runner = ApplicationRunner(config)
														
 
															+    summary = await runner.run(
														
 
															         query=query,
														
 
															         demand_id=demand_id,
														
 
															-        budget=budget,
														
 
															         trace_id=trace_id,
														
 
															-        use_db_policy=True,
														
 
															-        run_plan=run_plan,
														
 
															+        use_db_policy=environment.use_db_policy,
														
 
															+        policy_override=environment.strategy_override,
														
 
															     )
														
 
															-    # ⑦ 结构化输出摘要（Observer Harness）
														
 
															+    # 输出摘要
														
 
															     summary.log()
														
 
															+    finalize_search_agent_log(trace_id)
														
 
															-    # ⑧ 将全量日志移入 trace 目录
														
 
															-    global _file_handler, _tmp_log_path
														
 
															-    if _file_handler and _tmp_log_path and os.path.exists(_tmp_log_path):
														
 
															+    # 自动触发知识总结
														
 
															+    if os.getenv("ENABLE_KNOWLEDGE_SUMMARY", "false").lower() == "true":
														
 
															         try:
														
 
															-            _file_handler.close()
														
 
															-            trace_dir = os.path.join("tests", "traces", trace_id)
														
 
															-            os.makedirs(trace_dir, exist_ok=True)
														
 
															-            dest = os.path.join(trace_dir, "full_log.log")
														
 
															-            shutil.move(_tmp_log_path, dest)
														
 
															-            logger.info("完整日志已保存: %s", dest)
														
 
															+            from agent.llm.openrouter import openrouter_llm_call
														
 
															+            from src.knowledge import trigger_knowledge_summary
														
 
															+            logger.info("触发知识总结...")
														
 
															+            await trigger_knowledge_summary(llm_call=openrouter_llm_call)
														
 
															         except Exception as exc:
														
 
															-            logger.warning("移动日志文件失败: %s", exc)
														
 
															+            logger.warning("知识总结失败: %s", exc)
														
 
															-    # ⑨ 非零退出码（让 CI/调度系统能感知失败）
														
 
															     if not summary.success:
														
 
															         raise SystemExit(1)
														
--- a/src/domain/search/policy.py
+++ b/src/domain/search/policy.py
@@ -21,11 +21,15 @@ class SearchAgentPolicy:
 
															     initial_cursor: str = "1"
														
 
															     keyword_priority: KeywordPriority = "demand_first"
														
 
															     extra_keywords: List[str] = field(default_factory=list)
														
 
															+    recall_multiplier: float = 5.0
														
 
															     min_candidate_multiplier: float = 2.0
														
 
															     near_enough_candidate_multiplier: float = 1.2
														
 
															     filter_near_ratio: float = 0.8
														
 
															     max_detail_fetch: int = 30
														
 
															     enable_llm_review: bool = True
														
 
															+    quality_score: Dict[str, Any] = field(default_factory=dict)
														
 
															+    account_strategy: Dict[str, Any] = field(default_factory=dict)
														
 
															+    target_count_override: int | None = None
														
 
															     @classmethod
														
 
															     def defaults(cls) -> SearchAgentPolicy:
														
@@ -34,24 +38,50 @@ class SearchAgentPolicy:
 
															     @classmethod
														
 
															     def from_dict(cls, data: Dict[str, Any]) -> SearchAgentPolicy:
														
 
															         base = cls.defaults().__dict__.copy()
														
 
															-        for key, value in (data or {}).items():
														
 
															-            if key in base and value is not None:
														
 
															-                base[key] = value
														
 
															-        ek = base["extra_keywords"]
														
 
															+        payload = data or {}
														
 
															+        search_cfg = payload.get("search") if isinstance(payload.get("search"), dict) else {}
														
 
															+        filter_cfg = payload.get("filter") if isinstance(payload.get("filter"), dict) else {}
														
 
															+        account_cfg = payload.get("account") if isinstance(payload.get("account"), dict) else {}
														
 
															+        runtime_cfg = payload.get("runtime") if isinstance(payload.get("runtime"), dict) else {}
														
 
															+
														
 
															+        def _pick(name: str, *, section: Dict[str, Any] | None = None) -> Any:
														
 
															+            if section and name in section and section[name] is not None:
														
 
															+                return section[name]
														
 
															+            if name in payload and payload[name] is not None:
														
 
															+                return payload[name]
														
 
															+            return base[name]
														
 
															+
														
 
															+        ek = _pick("extra_keywords", section=search_cfg)
														
 
															         if not isinstance(ek, list):
														
 
															             ek = []
														
 
															+        quality_score = _pick("quality_score", section=filter_cfg)
														
 
															+        if not isinstance(quality_score, dict):
														
 
															+            quality_score = {}
														
 
															+        account_strategy = _pick("account_strategy", section=account_cfg)
														
 
															+        if not isinstance(account_strategy, dict):
														
 
															+            account_strategy = {}
														
 
															+        target_raw = runtime_cfg.get("target_count", payload.get("target_count"))
														
 
															+        if target_raw in (None, ""):
														
 
															+            target_count_override = None
														
 
															+        else:
														
 
															+            target_count_override = int(target_raw)
														
 
															+        keyword_priority = _pick("keyword_priority", section=search_cfg)
														
 
															         return cls(
														
 
															-            max_keywords=int(base["max_keywords"]),
														
 
															-            initial_cursor=str(base["initial_cursor"]),
														
 
															-            keyword_priority=base["keyword_priority"]
														
 
															-            if base["keyword_priority"] in ("demand_first", "query_first")
														
 
															+            max_keywords=int(_pick("max_keywords", section=search_cfg)),
														
 
															+            initial_cursor=str(_pick("initial_cursor", section=search_cfg)),
														
 
															+            keyword_priority=keyword_priority
														
 
															+            if keyword_priority in ("demand_first", "query_first")
														
 
															             else "demand_first",
														
 
															             extra_keywords=[str(x).strip() for x in ek if str(x).strip()],
														
 
															-            min_candidate_multiplier=float(base["min_candidate_multiplier"]),
														
 
															-            near_enough_candidate_multiplier=float(base["near_enough_candidate_multiplier"]),
														
 
															-            filter_near_ratio=float(base["filter_near_ratio"]),
														
 
															-            max_detail_fetch=int(base["max_detail_fetch"]),
														
 
															-            enable_llm_review=bool(base["enable_llm_review"]),
														
 
															+            recall_multiplier=float(_pick("recall_multiplier", section=search_cfg)),
														
 
															+            min_candidate_multiplier=float(_pick("min_candidate_multiplier", section=search_cfg)),
														
 
															+            near_enough_candidate_multiplier=float(_pick("near_enough_candidate_multiplier", section=search_cfg)),
														
 
															+            filter_near_ratio=float(_pick("filter_near_ratio", section=filter_cfg)),
														
 
															+            max_detail_fetch=int(_pick("max_detail_fetch", section=filter_cfg)),
														
 
															+            enable_llm_review=bool(_pick("enable_llm_review", section=filter_cfg)),
														
 
															+            quality_score=quality_score,
														
 
															+            account_strategy=account_strategy,
														
 
															+            target_count_override=target_count_override,
														
 
															         )
														
 
															     def to_dict(self) -> Dict[str, Any]:
														
@@ -60,13 +90,48 @@ class SearchAgentPolicy:
 
															             "initial_cursor": self.initial_cursor,
														
 
															             "keyword_priority": self.keyword_priority,
														
 
															             "extra_keywords": list(self.extra_keywords),
														
 
															+            "recall_multiplier": self.recall_multiplier,
														
 
															             "min_candidate_multiplier": self.min_candidate_multiplier,
														
 
															             "near_enough_candidate_multiplier": self.near_enough_candidate_multiplier,
														
 
															             "filter_near_ratio": self.filter_near_ratio,
														
 
															             "max_detail_fetch": self.max_detail_fetch,
														
 
															             "enable_llm_review": self.enable_llm_review,
														
 
															+            "quality_score": dict(self.quality_score),
														
 
															+            "account_strategy": dict(self.account_strategy),
														
 
															+            "target_count": self.target_count_override,
														
 
															+            "search": {
														
 
															+                "max_keywords": self.max_keywords,
														
 
															+                "initial_cursor": self.initial_cursor,
														
 
															+                "keyword_priority": self.keyword_priority,
														
 
															+                "extra_keywords": list(self.extra_keywords),
														
 
															+                "recall_multiplier": self.recall_multiplier,
														
 
															+                "min_candidate_multiplier": self.min_candidate_multiplier,
														
 
															+                "near_enough_candidate_multiplier": self.near_enough_candidate_multiplier,
														
 
															+            },
														
 
															+            "filter": {
														
 
															+                "filter_near_ratio": self.filter_near_ratio,
														
 
															+                "max_detail_fetch": self.max_detail_fetch,
														
 
															+                "enable_llm_review": self.enable_llm_review,
														
 
															+                "quality_score": dict(self.quality_score),
														
 
															+            },
														
 
															+            "account": {
														
 
															+                "account_strategy": dict(self.account_strategy),
														
 
															+            },
														
 
															+            "runtime": {
														
 
															+                "target_count": self.target_count_override,
														
 
															+            },
														
 
															         }
														
 
															+    def merged_with(self, override: Dict[str, Any]) -> "SearchAgentPolicy":
														
 
															+        """
														
 
															+        用额外策略覆盖当前策略并返回新实例。
														
 
															+
														
 
															+        适用于 env/file 的快速调参，不改 DB 即可生效。
														
 
															+        """
														
 
															+        merged = self.to_dict()
														
 
															+        merged.update(override or {})
														
 
															+        return SearchAgentPolicy.from_dict(merged)
														
 
															+
														
 
															 def apply_search_agent_policy(ctx: PipelineContext, policy: SearchAgentPolicy) -> None:
														
 
															     """将策略写入上下文，供 Stage / Gate 读取。"""
														
--- a/src/pipeline/context.py
+++ b/src/pipeline/context.py
@@ -52,6 +52,14 @@ class DemandAnalysisResult:
 
															     raw_result: Dict[str, Any] = field(default_factory=dict)
														
 
															+@dataclass
														
 
															+class ExpandedQuery:
														
 
															+    """查询拓展结果（基于爆款特征）。"""
														
 
															+    original_keywords: List[str] = field(default_factory=list)  # 原始关键词（来自 demand_analysis）
														
 
															+    expanded_keywords: List[Dict[str, Any]] = field(default_factory=list)  # 拓展关键词列表
														
 
															+    # 每个 expanded_keyword 包含: {"keyword": str, "original": str, "features": List[str], "weight_sum": int, "priority": int}
														
 
															+
														
 
															+
														
 
															 @dataclass
														
 
															 class CandidateArticle:
														
 
															     """搜索阶段候选文章结构。"""
														
@@ -160,6 +168,7 @@ class PipelineContext:
 
															     current_stage: str = "INIT"
														
 
															     demand_analysis: Optional[DemandAnalysisResult] = None
														
 
															+    expanded_query: Optional[ExpandedQuery] = None
														
 
															     candidate_articles: List[CandidateArticle] = field(default_factory=list)
														
 
															     filtered_articles: List[FilteredArticle] = field(default_factory=list)
														
 
															     accounts: List[AccountInfo] = field(default_factory=list)
														
--- a/src/pipeline/gates/filter_sufficiency.py
+++ b/src/pipeline/gates/filter_sufficiency.py
@@ -4,6 +4,7 @@ from __future__ import annotations
 
															 from src.pipeline.base import GateResult, QualityGate
														
 
															 from src.pipeline.context import PipelineContext
														
 
															+from src.pipeline.policy_resolver import get_policy_value
														
 
															 class FilterSufficiencyGate(QualityGate):
														
@@ -13,7 +14,7 @@ class FilterSufficiencyGate(QualityGate):
 
															     若补召回后仍不足，则放行（有多少用多少）。
														
 
															     """
														
 
															-    def __init__(self, fallback_stage: str = "content_search"):
														
 
															+    def __init__(self, fallback_stage: str = "query_expansion"):
														
 
															         # 当数量明显不足时，回退到指定阶段补召回
														
 
															         self.fallback_stage = fallback_stage
														
 
															         self._check_count = 0
														
@@ -21,7 +22,7 @@ class FilterSufficiencyGate(QualityGate):
 
															     def check(self, ctx: PipelineContext) -> GateResult:
														
 
															         self._check_count += 1
														
 
															         policy = ctx.metadata.get("search_agent_policy") or {}
														
 
															-        near_ratio = float(policy.get("filter_near_ratio", 0.5))
														
 
															+        near_ratio = float(get_policy_value(policy, "filter_near_ratio", 0.5, section="filter"))
														
 
															         count = len(ctx.filtered_articles)
														
 
															         target = max(ctx.target_count, 1)
														
--- a/src/pipeline/gates/search_completeness.py
+++ b/src/pipeline/gates/search_completeness.py
@@ -4,6 +4,7 @@ from __future__ import annotations
 
															 from src.pipeline.base import GateResult, QualityGate
														
 
															 from src.pipeline.context import PipelineContext
														
 
															+from src.pipeline.policy_resolver import get_policy_value
														
 
															 class SearchCompletenessGate(QualityGate):
														
@@ -15,10 +16,24 @@ class SearchCompletenessGate(QualityGate):
 
															     - ctx.metadata.search_agent_policy 中的候选倍率参数
														
 
															     """
														
 
															+    def __init__(self, fallback_stage: str = "query_expansion"):
														
 
															+        # 候选明显不足时，回退到 query_expansion 做新一轮关键词拓展与搜索
														
 
															+        self.fallback_stage = fallback_stage
														
 
															+        self._check_count = 0
														
 
															+
														
 
															     def check(self, ctx: PipelineContext) -> GateResult:
														
 
															+        self._check_count += 1
														
 
															+
														
 
															+        # 搜索阶段主动达到召回上限后停搜，直接放行
														
 
															+        if ctx.metadata.get("_search_stopped_early"):
														
 
															+            return GateResult(
														
 
															+                passed=True,
														
 
															+                issues=[f"搜索达到召回上限后提前结束，候选 {len(ctx.candidate_articles)} 篇"],
														
 
															+            )
														
 
															+
														
 
															         policy = ctx.metadata.get("search_agent_policy") or {}
														
 
															-        mult = float(policy.get("min_candidate_multiplier", 2.0))
														
 
															-        near = float(policy.get("near_enough_candidate_multiplier", 1.2))
														
 
															+        mult = float(get_policy_value(policy, "min_candidate_multiplier", 2.0, section="search"))
														
 
															+        near = float(get_policy_value(policy, "near_enough_candidate_multiplier", 1.2, section="search"))
														
 
															         target = max(int(ctx.target_count * mult), 1)
														
 
															         count = len(ctx.candidate_articles)
														
 
															         if count >= target:
														
@@ -29,8 +44,16 @@ class SearchCompletenessGate(QualityGate):
 
															                 issues=[f"候选数量低于理想值，但可继续: {count}/{target}"],
														
 
															                 action="proceed",
														
 
															             )
														
 
															+        # 已经 fallback 过一次，不再反复补召回，避免门禁死循环
														
 
															+        if self._check_count > 1:
														
 
															+            return GateResult(
														
 
															+                passed=True,
														
 
															+                issues=[f"补召回后候选仍不足({count}/{target})，放行已有候选"],
														
 
															+                action="proceed",
														
 
															+            )
														
 
															         return GateResult(
														
 
															             passed=False,
														
 
															             issues=[f"候选数量不足: {count}/{target}"],
														
 
															-            action="abort",
														
 
															+            action="fallback",
														
 
															+            fallback_stage=self.fallback_stage,
														
 
															         )
														
--- a/src/pipeline/hooks/live_progress_hook.py
+++ b/src/pipeline/hooks/live_progress_hook.py
@@ -149,6 +149,8 @@ class LiveProgressHook(PipelineHook):
 
															                 connector, s["keyword"], s["returned"], s["new"],
														
 
															             )
														
 
															         logger.info("      └─ 📊 累计候选: %d 篇", len(ctx.candidate_articles))
														
 
															+        if ctx.metadata.get("_search_stopped_early"):
														
 
															+            logger.info("      ⚡ 达到召回上限，提前停搜（共 %d 轮搜索词）", len(stats))
														
 
															     def _print_hard_filter(self, ctx: PipelineContext) -> None:
														
 
															         logger.info("      └─ 📊 过滤后: %d 篇", len(ctx.candidate_articles))
														
--- a/src/pipeline/hooks/pipeline_trace_hook.py
+++ b/src/pipeline/hooks/pipeline_trace_hook.py
@@ -145,6 +145,7 @@ class PipelineTraceHook(PipelineHook):
 
															         return {
														
 
															             "keyword_stats": stats,
														
 
															             "total_candidates": len(ctx.candidate_articles),
														
 
															+            "stopped_early": bool(ctx.metadata.get("_search_stopped_early")),
														
 
															             "candidates": candidates,
														
 
															         }
														
@@ -159,6 +160,7 @@ class PipelineTraceHook(PipelineHook):
 
															             "coarse_log": log,
														
 
															             "passed_count": sum(1 for r in log if r.get("status") == "pass"),
														
 
															             "rejected_count": sum(1 for r in log if r.get("status") == "reject"),
														
 
															+            "low_score_count": sum(1 for r in log if r.get("status") == "low_score"),
														
 
															             "after_filter_count": len(ctx.candidate_articles),
														
 
															         }
														
--- a/src/pipeline/runner.py
+++ b/src/pipeline/runner.py
@@ -29,6 +29,7 @@ from src.pipeline.stages import (
 
															     HardFilterStage,
														
 
															     OutputPersistStage,
														
 
															     QualityFilterStage,
														
 
															+    QueryExpansionStage,
														
 
															 )
														
 
															 from src.pipeline.stages.common import StageAgentExecutor
														
@@ -63,6 +64,7 @@ def build_default_pipeline(runtime: RuntimePipelineConfig) -> PipelineOrchestrat
 
															     pipeline = PipelineOrchestrator(
														
 
															         stages=[
														
 
															             DemandAnalysisStage(agent_executor=agent_executor),
														
 
															+            QueryExpansionStage(agent_executor=agent_executor),
														
 
															             ContentSearchStage(adapter=adapter, agent_executor=agent_executor),
														
 
															             HardFilterStage(),
														
 
															             CoarseFilterStage(agent_executor=agent_executor),
														
--- a/src/pipeline/stages/__init__.py
+++ b/src/pipeline/stages/__init__.py
@@ -6,6 +6,7 @@ from .content_filter import HardFilterStage, QualityFilterStage
 
															 from .content_search import ContentSearchStage
														
 
															 from .demand_analysis import DemandAnalysisStage
														
 
															 from .output_persist import OutputPersistStage
														
 
															+from .query_expansion import QueryExpansionStage
														
 
															 __all__ = [
														
 
															     "AccountPrecipitateStage",
														
@@ -15,4 +16,5 @@ __all__ = [
 
															     "HardFilterStage",
														
 
															     "OutputPersistStage",
														
 
															     "QualityFilterStage",
														
 
															+    "QueryExpansionStage",
														
 
															 ]
														
--- a/src/pipeline/stages/account_precipitate.py
+++ b/src/pipeline/stages/account_precipitate.py
@@ -7,6 +7,7 @@ from typing import Dict, List
 
															 from src.pipeline.adapters.base import ToolAdapter
														
 
															 from src.pipeline.base import Stage
														
 
															 from src.pipeline.context import AccountInfo, ArticleAccountRelation, PipelineContext
														
 
															+from src.pipeline.policy_resolver import get_policy_value
														
 
															 class AccountPrecipitateStage(Stage):
														
@@ -30,6 +31,10 @@ class AccountPrecipitateStage(Stage):
 
															         """
														
 
															         account_map: Dict[str, AccountInfo] = {}
														
 
															         relations: List[ArticleAccountRelation] = []
														
 
															+        policy = ctx.metadata.get("search_agent_policy") or {}
														
 
															+        account_strategy = get_policy_value(policy, "account_strategy", {}, section="account") or {}
														
 
															+        sample_limit = int(account_strategy.get("sample_articles_limit", 5))
														
 
															+        source_url_limit = int(account_strategy.get("source_urls_limit", 100))
														
 
															         for article in ctx.filtered_articles:
														
 
															             account = await self.adapter.get_account(article.url)
														
@@ -48,9 +53,17 @@ class AccountPrecipitateStage(Stage):
 
															                 account_map[key] = existing
														
 
															             existing.article_count += 1
														
 
															-            if article.title and article.title not in existing.sample_articles and len(existing.sample_articles) < 5:
														
 
															+            if (
														
 
															+                article.title
														
 
															+                and article.title not in existing.sample_articles
														
 
															+                and len(existing.sample_articles) < sample_limit
														
 
															+            ):
														
 
															                 existing.sample_articles.append(article.title)
														
 
															-            if article.url and article.url not in existing.source_urls:
														
 
															+            if (
														
 
															+                article.url
														
 
															+                and article.url not in existing.source_urls
														
 
															+                and len(existing.source_urls) < source_url_limit
														
 
															+            ):
														
 
															                 existing.source_urls.append(article.url)
														
 
															             relations.append(ArticleAccountRelation(article_url=article.url, wx_gh=existing.wx_gh))
														
--- a/src/pipeline/stages/coarse_filter.py
+++ b/src/pipeline/stages/coarse_filter.py
@@ -1,10 +1,10 @@
 
															 from __future__ import annotations
														
 
															-"""粗筛阶段：基于标题的 LLM 语义相关性批量判断。
														
 
															+"""粗筛阶段：基于标题的 LLM 语义相关性批量判断 + 爆款特征打分。
														
 
															 在 HardFilterStage 之后、QualityFilterStage 之前执行。
														
 
															 用 LLM 对候选文章标题做批量语义相关性判断，快速淘汰明显不相关的文章，
														
 
															-减少后续 detail API 调用量。
														
 
															+然后对通过的文章进行爆款特征打分，根据分数阈值筛选，减少后续 detail API 调用量。
														
 
															 """
														
 
															 import logging
														
@@ -12,6 +12,7 @@ from typing import Any, Dict, List
 
															 from src.pipeline.base import Stage
														
 
															 from src.pipeline.context import PipelineContext
														
 
															+from src.pipeline.policy_resolver import get_policy_value
														
 
															 from src.pipeline.stages.common import StageAgentExecutor
														
 
															 logger = logging.getLogger(__name__)
														
@@ -37,36 +38,80 @@ class CoarseFilterStage(Stage):
 
															         articles = ctx.candidate_articles
														
 
															         query = ctx.query
														
 
															-        # 构建需求特征摘要供 LLM 参考
														
 
															-        demand_summary = self._build_demand_summary(ctx)
														
 
															+        policy = ctx.metadata.get("search_agent_policy") or {}
														
 
															+        score_threshold = int(get_policy_value(policy, "coarse_score_threshold", 15, section="filter"))
														
 
															+        demand_summary = self._build_demand_summary(ctx)
														
 
															         coarse_log: List[Dict[str, Any]] = []
														
 
															         passed_articles = []
														
 
															         # 分批处理
														
 
															         for batch_start in range(0, len(articles), self.batch_size):
														
 
															             batch = articles[batch_start : batch_start + self.batch_size]
														
 
															-            batch_results = await self._judge_batch(query, demand_summary, batch, ctx)
														
 
															-            for article, result in zip(batch, batch_results):
														
 
															-                relevance = result.get("relevance", "reject")
														
 
															-                reason = result.get("reason", "")
														
 
															-                status = "pass" if relevance == "pass" else "reject"
														
 
															+            # 步骤 1：语义相关性判断
														
 
															+            batch_relevance = await self._judge_batch(query, demand_summary, batch, ctx)
														
 
															+
														
 
															+            # 收集通过语义判断的文章
														
 
															+            passed_indices = [
														
 
															+                i for i, r in enumerate(batch_relevance)
														
 
															+                if r.get("relevance") == "pass"
														
 
															+            ]
														
 
															+
														
 
															+            if not passed_indices:
														
 
															+                for article, result in zip(batch, batch_relevance):
														
 
															+                    coarse_log.append({
														
 
															+                        "title": article.title,
														
 
															+                        "url": article.url,
														
 
															+                        "source_keyword": article.source_keyword,
														
 
															+                        "status": "reject",
														
 
															+                        "reason": result.get("reason", ""),
														
 
															+                        "score": 0,
														
 
															+                        "features": [],
														
 
															+                    })
														
 
															+                continue
														
 
															-                coarse_log.append({
														
 
															-                    "title": article.title,
														
 
															-                    "url": article.url,
														
 
															-                    "source_keyword": article.source_keyword,
														
 
															-                    "status": status,
														
 
															-                    "reason": reason,
														
 
															-                })
														
 
															+            # 步骤 2：对通过的文章进行爆款特征打分
														
 
															+            passed_batch = [batch[i] for i in passed_indices]
														
 
															+            batch_scores = await self._score_batch(passed_batch, ctx)
														
 
															+            score_map: Dict[int, Dict] = {
														
 
															+                passed_indices[j]: batch_scores[j]
														
 
															+                for j in range(len(passed_indices))
														
 
															+            }
														
 
															-                if status == "pass":
														
 
															-                    passed_articles.append(article)
														
 
															+            for i, (article, relevance) in enumerate(zip(batch, batch_relevance)):
														
 
															+                if relevance.get("relevance") != "pass":
														
 
															+                    coarse_log.append({
														
 
															+                        "title": article.title,
														
 
															+                        "url": article.url,
														
 
															+                        "source_keyword": article.source_keyword,
														
 
															+                        "status": "reject",
														
 
															+                        "reason": relevance.get("reason", ""),
														
 
															+                        "score": 0,
														
 
															+                        "features": [],
														
 
															+                    })
														
 
															+                else:
														
 
															+                    sr = score_map.get(i, {"score": 0, "features": []})
														
 
															+                    score = int(sr.get("score", 0))
														
 
															+                    features = sr.get("features", [])
														
 
															+                    status = "pass" if score >= score_threshold else "low_score"
														
 
															+                    if status == "pass":
														
 
															+                        passed_articles.append(article)
														
 
															+                    coarse_log.append({
														
 
															+                        "title": article.title,
														
 
															+                        "url": article.url,
														
 
															+                        "source_keyword": article.source_keyword,
														
 
															+                        "status": status,
														
 
															+                        "reason": relevance.get("reason", ""),
														
 
															+                        "score": score,
														
 
															+                        "features": features,
														
 
															+                    })
														
 
															+        reject_count = sum(1 for r in coarse_log if r["status"] == "reject")
														
 
															+        low_score_count = sum(1 for r in coarse_log if r["status"] == "low_score")
														
 
															         logger.info(
														
 
															-            "coarse_filter 粗筛完成: %d → %d 篇 (淘汰 %d 篇)",
														
 
															-            len(articles), len(passed_articles), len(articles) - len(passed_articles),
														
 
															+            "coarse_filter 完成: %d → %d 篇 (语义淘汰 %d, 低分淘汰 %d, 阈值 %d)",
														
 
															+            len(articles), len(passed_articles), reject_count, low_score_count, score_threshold,
														
 
															         )
														
 
															         ctx.candidate_articles = passed_articles
														
@@ -135,6 +180,70 @@ class CoarseFilterStage(Stage):
 
															             logger.warning("coarse_filter LLM 调用失败，全部放行: %s", exc)
														
 
															             return [{"relevance": "pass", "reason": "LLM 调用失败，默认通过"} for _ in batch]
														
 
															+    async def _score_batch(
														
 
															+        self,
														
 
															+        batch: list,
														
 
															+        ctx: PipelineContext,
														
 
															+    ) -> List[Dict[str, Any]]:
														
 
															+        """对一批文章标题进行爆款特征打分。"""
														
 
															+        titles_block = "\n".join(
														
 
															+            f"{i + 1}. {a.title}" for i, a in enumerate(batch)
														
 
															+        )
														
 
															+
														
 
															+        messages = [
														
 
															+            {
														
 
															+                "role": "system",
														
 
															+                "content": (
														
 
															+                    "你是爆款标题特征评分专家。根据以下爆款标题特征权重表对标题打分：\n\n"
														
 
															+                    "**加分项（爆款特征）：**\n"
														
 
															+                    "1. 情绪极端化：25分（愤怒、恐慌、感动、震惊、痛心、太可怕了、必看、吓坏）\n"
														
 
															+                    "2. 名人/大国冲突：20分（特朗普、中美、俄乌、普京、大国博弈）\n"
														
 
															+                    "3. 悬念制造：15分（真相、内幕、不为人知、背后的秘密、终于曝光）\n"
														
 
															+                    "4. 数字具体化：10分（3个信号、5大变化、100万人、暴涨300%）\n"
														
 
															+                    "5. 时间紧迫感：10分（刚刚、紧急通知、最新消息、马上、突发）\n"
														
 
															+                    "6. 对比/意外转折：8分（没想到、竟然、反而、万万没想到、出人意料）\n"
														
 
															+                    "7. 阵营对立：7分（中国vs美国、正义vs邪恶、我们vs他们）\n"
														
 
															+                    "8. 军事危机暗示：5分（战争、冲突、危机、威胁、军事行动）\n\n"
														
 
															+                    "**减分项（平铺直述）：**\n"
														
 
															+                    "- 标题过于平淡、缺乏吸引力、纯陈述性：-10分\n"
														
 
															+                    "  （如：「某某发布通知」「某某召开会议」「某某介绍情况」）\n\n"
														
 
															+                    "评分规则：\n"
														
 
															+                    "- 如果标题符合某个加分特征，就加上该特征的权重分\n"
														
 
															+                    "- 如果标题过于平铺直述，扣 10 分\n"
														
 
															+                    "- 最终得分 = 所有加分项之和 - 减分项（最低 0 分）\n"
														
 
															+                    "- 只输出分数和匹配的特征名称，不要给理由和解释\n\n"
														
 
															+                    "输出格式：JSON，放在 ```json 代码块中。\n"
														
 
															+                    "```json\n"
														
 
															+                    '{"results": [{"index": 1, "score": 35, "features": ["情绪极端化", "悬念制造"]}, ...]}\n'
														
 
															+                    "```"
														
 
															+                ),
														
 
															+            },
														
 
															+            {
														
 
															+                "role": "user",
														
 
															+                "content": f"请对以下 {len(batch)} 篇文章标题进行爆款特征打分:\n\n{titles_block}",
														
 
															+            },
														
 
															+        ]
														
 
															+
														
 
															+        try:
														
 
															+            result = await self.agent_executor.run_simple_llm_json(
														
 
															+                name="标题打分",
														
 
															+                messages=messages,
														
 
															+                ctx=ctx,
														
 
															+            )
														
 
															+            items = result.get("results", [])
														
 
															+            indexed: Dict[int, Dict] = {}
														
 
															+            for item in items:
														
 
															+                idx = item.get("index", 0)
														
 
															+                if isinstance(idx, int) and 1 <= idx <= len(batch):
														
 
															+                    indexed[idx] = item
														
 
															+            return [
														
 
															+                indexed.get(i + 1, {"score": 0, "features": []})
														
 
															+                for i in range(len(batch))
														
 
															+            ]
														
 
															+        except Exception as exc:
														
 
															+            logger.warning("标题打分 LLM 调用失败，全部给 0 分: %s", exc)
														
 
															+            return [{"score": 0, "features": []} for _ in batch]
														
 
															+
														
 
															     @staticmethod
														
 
															     def _build_demand_summary(ctx: PipelineContext) -> str:
														
 
															         """从需求分析结果中提取摘要信息供粗筛 LLM 参考。"""
														
--- a/src/pipeline/stages/common.py
+++ b/src/pipeline/stages/common.py
@@ -87,6 +87,7 @@ class StageAgentExecutor:
 
															             max_iterations=self.max_iterations,
														
 
															             tools=allowed_tools,
														
 
															             skills=skills,
														
 
															+            parent_trace_id=ctx.trace_id,  # 传递 pipeline trace_id 作为 parent
														
 
															             extra_llm_params=self.extra_llm_params,
														
 
															             knowledge=KnowledgeConfig(
														
 
															                 enable_extraction=False,
														
--- a/src/pipeline/stages/content_filter.py
+++ b/src/pipeline/stages/content_filter.py
@@ -12,6 +12,7 @@ from typing import Any, Dict, List, Tuple
 
															 from src.pipeline.adapters.base import ToolAdapter
														
 
															 from src.pipeline.base import Stage
														
 
															 from src.pipeline.context import CandidateArticle, FilteredArticle, PipelineContext
														
 
															+from src.pipeline.policy_resolver import get_policy_value
														
 
															 from src.pipeline.stages.common import StageAgentExecutor
														
 
															 logger = logging.getLogger(__name__)
														
@@ -128,7 +129,7 @@ class QualityScoreConfig:
 
															     def merge_policy(self, policy: Dict) -> "QualityScoreConfig":
														
 
															         """用 DB 策略中的值覆盖当前配置，返回新实例。"""
														
 
															-        score_cfg = policy.get("quality_score") or {}
														
 
															+        score_cfg = get_policy_value(policy, "quality_score", {}, section="filter")
														
 
															         if not score_cfg:
														
 
															             return self
														
 
															         return QualityScoreConfig(
														
@@ -210,9 +211,10 @@ class QualityFilterStage(Stage):
 
															         4) 按等级与时间排序后截断到目标数量
														
 
															         """
														
 
															         policy = ctx.metadata.get("search_agent_policy") or {}
														
 
															-        limit = int(policy.get("max_detail_fetch", self.detail_limit))
														
 
															-        if "enable_llm_review" in policy:
														
 
															-            enable_llm = bool(policy["enable_llm_review"]) and self.agent_executor is not None
														
 
															+        limit = int(get_policy_value(policy, "max_detail_fetch", self.detail_limit, section="filter"))
														
 
															+        llm_toggle = get_policy_value(policy, "enable_llm_review", None, section="filter")
														
 
															+        if llm_toggle is not None:
														
 
															+            enable_llm = bool(llm_toggle) and self.agent_executor is not None
														
 
															         else:
														
 
															             enable_llm = self.enable_llm_review
														
@@ -375,10 +377,6 @@ class QualityFilterStage(Stage):
 
															         # interest 基于数据指标
														
 
															         interest = "high" if len(body_text) >= cfg.min_body_length else "medium"
														
 
															-        # spam 检测仍保留为硬规则
														
 
															-        if any(flag in haystack_lower for flag in cfg.spam_keywords):
														
 
															-            return "low", "low", "存在明显标题党或情绪煽动风险"
														
 
															-
														
 
															         # 利用阅读量/互动数据辅助判断 interest
														
 
															         view_count = detail.view_count
														
 
															         engagement = detail.like_count + detail.share_count + detail.looking_count
														
--- a/src/pipeline/stages/content_search.py
+++ b/src/pipeline/stages/content_search.py
@@ -13,6 +13,7 @@ from agent.tools.builtin.knowledge import KnowledgeConfig
 
															 from src.pipeline.adapters.base import ToolAdapter
														
 
															 from src.pipeline.base import Stage
														
 
															 from src.pipeline.context import CandidateArticle, PipelineContext
														
 
															+from src.pipeline.policy_resolver import get_policy_value
														
 
															 from src.pipeline.stages.common import StageAgentExecutor, _append_llm_interaction, _compact_messages, extract_json_object
														
 
															 # 从 weixin_search 工具输出中提取 JSON 文章列表
														
@@ -49,7 +50,7 @@ class ContentSearchStage(Stage):
 
															         例：目标 10 篇 × 5.0 = 最多 50 篇候选进入过滤阶段。
														
 
															         """
														
 
															         policy = ctx.metadata.get("search_agent_policy") or {}
														
 
															-        mult = float(policy.get("recall_multiplier", self.recall_multiplier))
														
 
															+        mult = float(get_policy_value(policy, "recall_multiplier", self.recall_multiplier, section="search"))
														
 
															         return max(int(ctx.target_count * mult), ctx.target_count + 1)
														
 
															     async def execute(self, ctx: PipelineContext) -> PipelineContext:
														
@@ -79,8 +80,25 @@ class ContentSearchStage(Stage):
 
															         analysis = ctx.demand_analysis
														
 
															         assert analysis is not None
														
 
															-        precise_keywords = json.dumps(analysis.search_strategy.precise_keywords, ensure_ascii=False)
														
 
															-        topic_keywords = json.dumps(analysis.search_strategy.topic_keywords, ensure_ascii=False)
														
 
															+        # 优先使用拓展后的关键词
														
 
															+        if ctx.expanded_query and ctx.expanded_query.expanded_keywords:
														
 
															+            # 使用拓展关键词（已按权重排序）
														
 
															+            expanded_kws = [
														
 
															+                item.get("keyword", "")
														
 
															+                for item in ctx.expanded_query.expanded_keywords
														
 
															+                if item.get("keyword")
														
 
															+            ]
														
 
															+            search_keywords = json.dumps(expanded_kws, ensure_ascii=False)
														
 
															+            keywords_source = "拓展关键词（基于爆款特征）"
														
 
															+        else:
														
 
															+            # 回退到原始关键词
														
 
															+            original_kws = (
														
 
															+                analysis.search_strategy.precise_keywords
														
 
															+                + analysis.search_strategy.topic_keywords
														
 
															+            )
														
 
															+            search_keywords = json.dumps(original_kws, ensure_ascii=False)
														
 
															+            keywords_source = "原始关键词"
														
 
															+
														
 
															         upper_features = json.dumps(analysis.upper_features, ensure_ascii=False)
														
 
															         lower_features = json.dumps(analysis.lower_features, ensure_ascii=False)
														
 
															         filter_focus = ""
														
@@ -103,6 +121,12 @@ class ContentSearchStage(Stage):
 
															         max_recall = self._max_recall(ctx)
														
 
															         existing_count = len(ctx.candidate_articles)
														
 
															         remaining_quota = max(max_recall - existing_count, 0)
														
 
															+        if remaining_quota <= 0:
														
 
															+            logging.getLogger(__name__).info(
														
 
															+                "content_search(agent) 提前结束: 已达召回上限 %d 篇",
														
 
															+                max_recall,
														
 
															+            )
														
 
															+            return ctx
														
 
															         messages = [
														
 
															             {
														
@@ -122,15 +146,15 @@ class ContentSearchStage(Stage):
 
															 目标文章数: {ctx.target_count}
														
 
															 召回上限: {remaining_quota} 篇（已有 {existing_count} 篇候选，总上限 {max_recall} 篇）
														
 
															-需求分析结果:
														
 
															-- 精准词候选: {precise_keywords}
														
 
															-- 主题下钻候选: {topic_keywords}
														
 
															+搜索关键词（{keywords_source}）: {search_keywords}
														
 
															+
														
 
															+需求分析上下文:
														
 
															 - 上层特征: {upper_features}
														
 
															 - 下层特征: {lower_features}
														
 
															 - {filter_focus}
														
 
															 {fallback_hint}
														
 
															-注意：搜索 2-3 个关键词即可，不要搜索过多。优先使用最相关的精准词。
														
 
															+注意：搜索 2-3 个关键词即可，不要搜索过多。优先使用权重高的关键词（列表前面的）。
														
 
															 请按照 content_finding_strategy 技能中的方法论执行搜索，完成后输出 JSON：
														
 
															 ```json
														
@@ -152,6 +176,7 @@ class ContentSearchStage(Stage):
 
															             max_iterations=self.agent_executor.max_iterations,
														
 
															             tools=["weixin_search"],
														
 
															             skills=["content_finding_strategy"],
														
 
															+            parent_trace_id=ctx.trace_id,  # 传递 pipeline trace_id 作为 parent
														
 
															             extra_llm_params=self.agent_executor.extra_llm_params,
														
 
															             knowledge=KnowledgeConfig(
														
 
															                 enable_extraction=False,
														
@@ -169,6 +194,7 @@ class ContentSearchStage(Stage):
 
															         max_recall = self._max_recall(ctx)
														
 
															         logger = logging.getLogger(__name__)
														
 
															         logger.info("content_search(agent) 最大召回上限: %d 篇 (target=%d)", max_recall, ctx.target_count)
														
 
															+        stopped_early = False
														
 
															         import time as _time
														
 
															         t0 = _time.monotonic()
														
@@ -218,6 +244,16 @@ class ContentSearchStage(Stage):
 
															                                 break
														
 
															                             if article.url not in dedup:
														
 
															                                 dedup[article.url] = article
														
 
															+                        if len(dedup) >= max_recall:
														
 
															+                            stopped_early = True
														
 
															+                            logger.info(
														
 
															+                                "content_search(agent) 提前停止: 候选达到上限 %d 篇",
														
 
															+                                max_recall,
														
 
															+                            )
														
 
															+                            break
														
 
															+            if len(dedup) >= max_recall:
														
 
															+                stopped_early = True
														
 
															+                break
														
 
															         duration_ms = int((_time.monotonic() - t0) * 1000)
														
@@ -235,6 +271,7 @@ class ContentSearchStage(Stage):
 
															         })
														
 
															         ctx.candidate_articles = list(dedup.values())
														
 
															+        ctx.metadata["_search_stopped_early"] = stopped_early
														
 
															         # 尝试从 agent 最终输出提取 keyword_stats（可选）
														
 
															         keyword_stats = []
														
@@ -244,6 +281,7 @@ class ContentSearchStage(Stage):
 
															                 keyword_stats = data.get("keyword_stats", [])
														
 
															                 break
														
 
															         ctx.metadata["_search_keyword_stats"] = keyword_stats
														
 
															+        self._archive_search_feedback(ctx, keyword_stats=keyword_stats, stopped_early=stopped_early)
														
 
															         return ctx
														
 
															     @staticmethod
														
@@ -292,10 +330,14 @@ class ContentSearchStage(Stage):
 
															     async def _code_search(self, ctx: PipelineContext) -> PipelineContext:
														
 
															         """代码驱动搜索：按关键词依次调用 adapter.search。"""
														
 
															         policy = ctx.metadata.get("search_agent_policy") or {}
														
 
															-        page = str(policy.get("initial_cursor", self.page))
														
 
															+        page = str(get_policy_value(policy, "initial_cursor", self.page, section="search"))
														
 
															         max_recall = self._max_recall(ctx)
														
 
															+        max_per_keyword = int(get_policy_value(policy, "max_per_keyword", 3, section="search"))
														
 
															         logger = logging.getLogger(__name__)
														
 
															-        logger.info("content_search(code) 最大召回上限: %d 篇 (target=%d)", max_recall, ctx.target_count)
														
 
															+        logger.info(
														
 
															+            "content_search(code) 最大召回上限: %d 篇 (target=%d), 每词上限: %d 篇",
														
 
															+            max_recall, ctx.target_count, max_per_keyword,
														
 
															+        )
														
 
															         fallback_round = ctx.metadata.get("_fallback_round", 0)
														
 
															         keywords = self._build_keywords(ctx, fallback_round=fallback_round)
														
@@ -307,30 +349,42 @@ class ContentSearchStage(Stage):
 
															                 break
														
 
															             before = len(dedup)
														
 
															             articles = await self.adapter.search(keyword=keyword, page=page)
														
 
															+
														
 
															+            # 每个关键词最多保留 max_per_keyword 篇（按阅读量降序）
														
 
															+            articles.sort(key=lambda a: a.view_count or 0, reverse=True)
														
 
															+            added_count = 0
														
 
															             for article in articles:
														
 
															+                if added_count >= max_per_keyword:
														
 
															+                    break
														
 
															                 article.source_keyword = keyword
														
 
															                 article.recall_round = index
														
 
															                 if article.url not in dedup:
														
 
															                     dedup[article.url] = article
														
 
															+                    added_count += 1
														
 
															+
														
 
															             keyword_stats.append({
														
 
															                 "keyword": keyword,
														
 
															                 "round": index,
														
 
															                 "returned": len(articles),
														
 
															-                "new": len(dedup) - before,
														
 
															+                "new": added_count,
														
 
															             })
														
 
															+        stopped_early = len(dedup) >= max_recall
														
 
															         ctx.candidate_articles = list(dedup.values())
														
 
															         ctx.metadata["_search_keyword_stats"] = keyword_stats
														
 
															+        ctx.metadata["_search_stopped_early"] = stopped_early
														
 
															+        self._archive_search_feedback(ctx, keyword_stats=keyword_stats, stopped_early=stopped_early)
														
 
															         return ctx
														
 
															     def _build_keywords(self, ctx: PipelineContext, *, fallback_round: int = 0) -> List[str]:
														
 
															         """
														
 
															         构建搜索词队列。
														
 
															-        来源：
														
 
															-        - demand_analysis 产出的精准词/主题词/上下层特征
														
 
															-        - policy.extra_keywords
														
 
															-        - 原始 query（兜底）
														
 
															+        来源优先级：
														
 
															+        1. expanded_query 拓展关键词（按爆款特征权重排序）
														
 
															+        2. demand_analysis 产出的精准词/主题词/上下层特征
														
 
															+        3. policy.extra_keywords
														
 
															+        4. 原始 query（兜底）
														
 
															         回退搜索（fallback_round >= 1）时：
														
 
															         - 跳过上一轮已使用的关键词
														
@@ -339,9 +393,10 @@ class ContentSearchStage(Stage):
 
															         - 增大搜索词数量上限
														
 
															         """
														
 
															         policy = ctx.metadata.get("search_agent_policy") or {}
														
 
															-        max_kw = int(policy.get("max_keywords", self.max_keywords))
														
 
															-        priority = policy.get("keyword_priority", "demand_first")
														
 
															-        extras = [str(x).strip() for x in (policy.get("extra_keywords") or []) if str(x).strip()]
														
 
															+        max_kw = int(get_policy_value(policy, "max_keywords", self.max_keywords, section="search"))
														
 
															+        priority = str(get_policy_value(policy, "keyword_priority", "demand_first", section="search"))
														
 
															+        extras_raw = get_policy_value(policy, "extra_keywords", [], section="search")
														
 
															+        extras = [str(x).strip() for x in (extras_raw or []) if str(x).strip()]
														
 
															         analysis = ctx.demand_analysis
														
 
															         assert analysis is not None
														
@@ -354,14 +409,21 @@ class ContentSearchStage(Stage):
 
															             # 回退轮增大关键词数量上限
														
 
															             max_kw = max(max_kw, self.max_keywords) + 4
														
 
															+        # 构建拓展关键词列表（按权重排序）
														
 
															+        expanded_kws: List[str] = []
														
 
															+        if ctx.expanded_query and ctx.expanded_query.expanded_keywords:
														
 
															+            expanded_kws = [
														
 
															+                str(item.get("keyword", "")).strip()
														
 
															+                for item in ctx.expanded_query.expanded_keywords
														
 
															+                if str(item.get("keyword", "")).strip()
														
 
															+            ]
														
 
															+
														
 
															         from_demand: List[str] = []
														
 
															         if fallback_round >= 1:
														
 
															-            # 回退搜索：优先未用过的 topic_keywords 和 lower/upper features
														
 
															             from_demand.extend(analysis.search_strategy.topic_keywords)
														
 
															             from_demand.extend(analysis.lower_features)
														
 
															             from_demand.extend(analysis.upper_features)
														
 
															             from_demand.extend(analysis.search_strategy.precise_keywords)
														
 
															-            # 加入 filter_focus.relevance_focus 作为补充搜索词
														
 
															             if analysis.filter_focus and analysis.filter_focus.relevance_focus:
														
 
															                 from_demand.extend(analysis.filter_focus.relevance_focus)
														
 
															         else:
														
@@ -372,10 +434,11 @@ class ContentSearchStage(Stage):
 
															         query = str(ctx.query).strip()
														
 
															+        # 拓展关键词优先，然后是 demand 关键词
														
 
															         if priority == "query_first":
														
 
															-            ordered = [query] + extras + from_demand
														
 
															+            ordered = [query] + expanded_kws + extras + from_demand
														
 
															         else:
														
 
															-            ordered = from_demand + extras + [query]
														
 
															+            ordered = expanded_kws + from_demand + extras + [query]
														
 
															         seen = set()
														
 
															         keywords: List[str] = []
														
@@ -383,7 +446,6 @@ class ContentSearchStage(Stage):
 
															             value = str(keyword).strip()
														
 
															             if not value or value in seen:
														
 
															                 continue
														
 
															-            # 回退搜索时跳过上一轮已使用的关键词
														
 
															             if fallback_round >= 1 and value in used_keywords:
														
 
															                 continue
														
 
															             seen.add(value)
														
@@ -391,3 +453,22 @@ class ContentSearchStage(Stage):
 
															             if len(keywords) >= max_kw:
														
 
															                 break
														
 
															         return keywords
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _archive_search_feedback(
														
 
															+        ctx: PipelineContext,
														
 
															+        *,
														
 
															+        keyword_stats: List[Dict],
														
 
															+        stopped_early: bool,
														
 
															+    ) -> None:
														
 
															+        """把本轮搜索效果沉淀到 metadata，供后续 run 复用。"""
														
 
															+        history = ctx.metadata.setdefault("_search_feedback_history", [])
														
 
															+        if not isinstance(history, list):
														
 
															+            return
														
 
															+        history.append({
														
 
															+            "query": ctx.query,
														
 
															+            "fallback_round": ctx.metadata.get("_fallback_round", 0),
														
 
															+            "candidate_count": len(ctx.candidate_articles),
														
 
															+            "stopped_early": stopped_early,
														
 
															+            "keyword_stats": keyword_stats,
														
 
															+        })
														
--- a/src/pipeline/stages/demand_analysis.py
+++ b/src/pipeline/stages/demand_analysis.py
@@ -2,6 +2,7 @@ from __future__ import annotations
 
															 """需求理解阶段：把自然语言 query 转成结构化策略。"""
														
 
															+import json
														
 
															 from typing import List
														
 
															 from src.pipeline.base import Stage
														
@@ -28,6 +29,7 @@ class DemandAnalysisStage(Stage):
 
															         - ctx.demand_analysis
														
 
															         """
														
 
															         knowledge_context = await _build_knowledge_context(ctx)
														
 
															+        feedback_context = _build_search_feedback_context(ctx)
														
 
															         messages = [
														
 
															             {
														
 
															                 "role": "system",
														
@@ -48,11 +50,19 @@ class DemandAnalysisStage(Stage):
 
															 补充知识:
														
 
															 {knowledge_context or "无"}
														
 
															+历史搜索反馈:
														
 
															+{feedback_context or "无"}
														
 
															+
														
 
															 要求:
														
 
															 1. 只能用 query 中已有词语做归类，禁止编造核心特征。
														
 
															 2. 先区分 `实质特征` 与 `形式特征`。
														
 
															 3. 只对 `实质特征` 继续区分 `上层特征` 与 `下层特征`。
														
 
															-4. 输出 JSON:
														
 
															+4. 结合历史搜索反馈优化策略：
														
 
															+   - noise_ratio > 0.6 的关键词路径应降权或替换，说明该词召回大量重复内容
														
 
															+   - new 数量高且 noise_ratio 低的词路优先保留
														
 
															+   - 若上一轮 stopped_early=True，说明当前词路召回效率足够，应保留其高产关键词
														
 
															+   - 若上一轮 stopped_early=False 且候选不足，需要拓展新的搜索角度
														
 
															+5. 输出 JSON:
														
 
															 ```json
														
 
															 {{
														
 
															   "特征归类": {{
														
@@ -121,6 +131,55 @@ async def _build_knowledge_context(ctx: PipelineContext) -> str:
 
															     return "\n".join(lines)
														
 
															+def _build_search_feedback_context(ctx: PipelineContext) -> str:
														
 
															+    """
														
 
															+    构建历史搜索反馈上下文。
														
 
															+
														
 
															+    支持两种 metadata 键：
														
 
															+    - search_feedback_history（推荐，外部注入）
														
 
															+    - _search_feedback_history（内部累积）
														
 
															+    """
														
 
															+    history = ctx.metadata.get("search_feedback_history")
														
 
															+    if history is None:
														
 
															+        history = ctx.metadata.get("_search_feedback_history")
														
 
															+    if not isinstance(history, list) or not history:
														
 
															+        return ""
														
 
															+
														
 
															+    lines: List[str] = []
														
 
															+    for idx, item in enumerate(history[:5], start=1):
														
 
															+        if not isinstance(item, dict):
														
 
															+            continue
														
 
															+        query = str(item.get("query", "")).strip()
														
 
															+        note = str(item.get("note", "")).strip()
														
 
															+        fallback_round = item.get("fallback_round", 0)
														
 
															+        candidate_count = item.get("candidate_count", 0)
														
 
															+        stopped_early = item.get("stopped_early", False)
														
 
															+        keyword_stats = item.get("keyword_stats")
														
 
															+        compact_stats = []
														
 
															+        if isinstance(keyword_stats, list):
														
 
															+            for stat in keyword_stats[:8]:
														
 
															+                if not isinstance(stat, dict):
														
 
															+                    continue
														
 
															+                returned = int(stat.get("returned", 0) or 0)
														
 
															+                new = int(stat.get("new", 0) or 0)
														
 
															+                noise_ratio = round((returned - new) / returned, 2) if returned > 0 else 0.0
														
 
															+                compact_stats.append({
														
 
															+                    "keyword": str(stat.get("keyword", "")).strip(),
														
 
															+                    "returned": returned,
														
 
															+                    "new": new,
														
 
															+                    "noise_ratio": noise_ratio,
														
 
															+                })
														
 
															+        lines.append(f"### 反馈 {idx}")
														
 
															+        if query:
														
 
															+            lines.append(f"- query: {query}")
														
 
															+        if note:
														
 
															+            lines.append(f"- 备注: {note}")
														
 
															+        lines.append(f"- 补召回轮次: {fallback_round}, 累计候选: {candidate_count}, 提前停搜: {stopped_early}")
														
 
															+        if compact_stats:
														
 
															+            lines.append(f"- 关键词效果: {json.dumps(compact_stats, ensure_ascii=False)}")
														
 
															+    return "\n".join(lines)
														
 
															+
														
 
															+
														
 
															 def _ensure_list(value) -> List[str]:
														
 
															     """把外部结果安全规范为字符串列表。"""
														
 
															     if isinstance(value, list):
														
--- a/tests/output.json
+++ b/tests/output.json
@@ -1,132 +0,0 @@
 
															-{
														
 
															-  "trace_id": "content_finding_iran_israel_peace_20260326",
														
 
															-  "query": "伊朗、以色列、和平是永恒的主题",
														
 
															-  "demand_id": "1",
														
 
															-  "summary": {
														
 
															-    "candidate_count": 50,
														
 
															-    "filtered_in_count": 20,
														
 
															-    "account_count": 16
														
 
															-  },
														
 
															-  "contents": [
														
 
															-    {
														
 
															-      "title": "伊朗和以色列：和平的契机",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzI0OTU4NDU2NQ==&mid=2247484382&idx=1&sn=4c44e3a214df638eca93986a32a1333e",
														
 
															-      "statistics": {},
														
 
															-      "reason": "TED演讲《伊朗和以色列：和平的契机》，直接呼应主题，由知名社会活动家Trita Parsi主讲，探讨两国和平可能性，内容权威、正能量，适合老年人分享观看"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "从"阿克萨洪水"泄去，到"史诗怒火"熄灭，中东和平终将到来",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=Mzk0NzQzNzY5NA==&mid=2247486586&idx=1&sn=9c23d93b8890d5d4648984df58acb08d",
														
 
															-      "statistics": {},
														
 
															-      "reason": "深度分析中东和平曙光，以"和平终将到来"为核心论点，历史感强，情感积极，符合老年人对和平的期盼，与主题高度契合"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "美以伊战争分析——和谈的条件已经在萌芽",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzU3NjAzMzM5Ng==&mid=2247484503&idx=1&sn=dbfff22eaed2250a213e3e5c6a97f820",
														
 
															-      "statistics": {},
														
 
															-      "reason": "深度分析美以伊三方和谈条件，逻辑清晰，展望和平前景，适合关注时事的老年人，内容理性客观"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "伊朗与以色列由"热"变"冷"的关系探析",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzA5Mzc1NTYwMQ==&mid=2649683805&idx=1&sn=b61e99f1cfca068132d271a2a9832f29",
														
 
															-      "statistics": {},
														
 
															-      "reason": "节选自《史学月刊》学术文章，系统梳理伊以关系从友好到对立的历史演变，历史感强，文笔流畅，适合老年人了解历史背景"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "为中东求平安！恨能挑起事端",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzkwODg4NDkwOQ==&mid=2247489216&idx=1&sn=e62c7e5152a22141d6b8f7f69110b174",
														
 
															-      "statistics": {},
														
 
															-      "reason": "从人文关怀角度呼吁中东和平，情感真挚，有宗教情怀，呼吁放下仇恨、和平相处，非常适合有宗教信仰的老年人分享"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "以伊"12天战争"，结束了？",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MjM5MDU1Mzg3Mw==&mid=2651666228&idx=1&sn=9f3aa30d2bb89e1151b3e5e851fbac7e",
														
 
															-      "statistics": {},
														
 
															-      "reason": "中国新闻周刊权威报道，深度分析以伊12天战争停火始末，内容专业权威，适合关注国际时事的老年人，可信度高"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "从"天然盟友"到不共戴天：以色列与伊朗的历史积怨与现实纠葛",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzIwNTEzMzQ1NA==&mid=2648346427&idx=1&sn=933a5e1283454221f323730d1a355a1f",
														
 
															-      "statistics": {},
														
 
															-      "reason": "深度历史文章，从居鲁士大帝到现代冲突，梳理两国千年恩怨，文笔优美，历史感强，结尾呼吁和平，非常适合老年人阅读"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "伊朗与以色列："我们原本并非死敌"",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzU1NjQ4ODEwMQ==&mid=2247487606&idx=1&sn=fa428d5ce0f8bb774d096b4264f27536",
														
 
															-      "statistics": {},
														
 
															-      "reason": "通俗易懂地讲述伊以关系从蜜月到决裂的历史，语言生动，有历史温情，标题引人入胜，适合老年人了解历史真相"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "以色列打不动了想停火，伊朗说不：47年的账，今天得算清",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzI2NDA1MTEwNQ==&mid=2247617031&idx=1&sn=286a96c958af7dc5b253d1a2c518e412",
														
 
															-      "statistics": {},
														
 
															-      "reason": "时事热点文章，叙事生动，深度分析停火博弈，结尾呼吁真正和平，语言通俗，适合老年人了解当前局势"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "武力换不来中东和平，是国际社会共识",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MTQzMTE0MjcyMQ==&mid=2667843652&idx=1&sn=9a2dc886bd0793887f79e2ba10e58cb1",
														
 
															-      "statistics": {},
														
 
															-      "reason": "环球时报社评，权威媒体，明确表达和平立场，引用中国外长王毅呼吁停火，体现中国和平主张，适合老年人分享传播"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "伊朗和以色列为什么会停战？",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzIwMzAwMzQxNw==&mid=2756747925&idx=1&sn=5c0c8d6f0fbeee1c1365edfd2305d719",
														
 
															-      "statistics": {},
														
 
															-      "reason": "卢克文工作室出品，高热度大V文章，深度分析停战原因，语言生动有趣，结尾反思战争代价呼吁真正和平，老年人喜爱的风格"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "以色列与伊朗：战火重燃，还是永久握手言和？",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=Mzg3NjUyNjc5Mw==&mid=2247484806&idx=1&sn=1ef51adb1607300430c3989b50b99312",
														
 
															-      "statistics": {},
														
 
															-      "reason": "系统分析以伊冲突的深层矛盾与和平可能，结尾呼吁和平，强调中国的和平贡献，正能量，适合老年人分享"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "中东重燃战火，促和止战才是正道",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=Mzg5NTg3NDM2Nw==&mid=2247486429&idx=1&sn=4e1ae791124459e2ff6ddba088e98bd2",
														
 
															-      "statistics": {},
														
 
															-      "reason": "从基督教视角呼吁和平，引用圣经智慧，情感真挚，有祷告祈愿，适合有宗教信仰的老年人，和平主题突出"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "以色列和伊朗，一对孪生的镜像",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzI1NzA4NTYwNg==&mid=2649232215&idx=1&sn=bacc2dab481374ede4aee1ce3cfcb312",
														
 
															-      "statistics": {},
														
 
															-      "reason": "独特视角深度分析两国内部矛盾与相似性，文章深刻，揭示战争背后的政治逻辑，适合有思考力的老年读者"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "深度解读：中东人都渴望和平，为何战火从未熄灭？",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzA5ODA1NTExMQ==&mid=2650200536&idx=1&sn=bdc5f6a272cad350793c98b1504cc802",
														
 
															-      "statistics": {},
														
 
															-      "reason": "从地理、历史、文明、殖民、石油、霸权六层深度解读中东乱局，引用多位权威学者，结尾呼吁还命运给中东人民，适合老年人深度阅读"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "还中东以秩序，还人民以安宁，还世界以和平",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzA3MTQ4MDA2Mw==&mid=2650918465&idx=1&sn=05a31e6bf85ea1c3125b7e6dcab0a8c3",
														
 
															-      "statistics": {},
														
 
															-      "reason": "中国驻阿联酋大使馆发文，代表中国官方立场，呼吁停火止战，体现中国和平主张，权威可信，适合老年人了解中国外交立场"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "中东——人类文明的摇篮，为何永无宁日？",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzU0NDQwOTU4Ng==&mid=2247484008&idx=1&sn=5f9666fc8def1a96a856681bb961d57d",
														
 
															-      "statistics": {},
														
 
															-      "reason": "从地理、宗教、资源、大国博弈多维度深度解读中东乱局，文笔优美，历史感强，结尾充满希望，适合老年人深度阅读"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "美国伊朗开始和谈，中东战争要结束了吗？",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=Mzg3ODE3MDAwMA==&mid=2247485956&idx=1&sn=030d5c96f70f8634663d22e1b441d1f5",
														
 
															-      "statistics": {},
														
 
															-      "reason": "分析美伊和谈进展，探讨中东战争结束可能性，时效性强，适合关注时事的老年人了解最新局势"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "伊朗与以色列的千年恩怨 | 范鸿达",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzI5ODc4Njc5Ng==&mid=2247505775&idx=2&sn=69c6f4e3b7e3d07f99471ba9b323ae33",
														
 
															-      "statistics": {},
														
 
															-      "reason": "知名学者范鸿达撰写，学术权威，系统梳理伊以千年恩怨，适合老年人了解历史背景，可信度高"
														
 
															-    },
														
 
															-    {
														
 
															-      "title": "以色列与伊朗有哪些你死我活的历史恩怨？",
														
 
															-      "url": "https://mp.weixin.qq.com/s?__biz=MzU1MDAzOTQ5NA==&mid=2247490015&idx=1&sn=afe29bc1290a51044422ffd1d4f4c16c",
														
 
															-      "statistics": {},
														
 
															-      "reason": "通俗易懂地梳理以伊历史恩怨，语言生动，适合老年人了解两国冲突根源，有助于理解当前局势"
														
 
															-    }
														
 
															-  ]
														
 
															-}
														
--- a/tests/skills/account_precipitation.md
+++ b/tests/skills/account_precipitation.md
@@ -3,6 +3,12 @@ name: account_precipitation
 
															 description: 账号沉淀策略（Harness 架构：biz 批量合并 + 质量分级）
														
 
															 ---
														
 
															+> **注意**：此文件仅作文档参考，未被代码引用。
														
 
															+> 
														
 
															+> `AccountPrecipitateStage` 是纯代码驱动，不调用 LLM，不使用 skill。
														
 
															+> 
														
 
															+> 本文件保留作为账号沉淀逻辑的参考文档。
														
 
															+
														
 
															 # 账号沉淀策略
														
 
															 ---
														
--- a/tests/skills/article_finding_strategy.md
+++ b/tests/skills/article_finding_strategy.md
@@ -41,6 +41,7 @@ description: 内容搜索方法论（Harness 架构：两轨搜索 + 搜索期
 
															 | 候选上限 P | `target_count × 3` | 达到 P 立即停止搜索，不再调用 weixin_search |
														
 
															 | 关键词轮询上限 | 精准词 + 下钻词全部使用完 | 用完后不再补充关键词，将已有候选交付筛选 |
														
 
															 | 单关键词最多翻页 | 2 页（首页 + next_cursor 续页） | 单词超 2 页不再翻页，换下一个关键词 |
														
 
															+| 单关键词保留上限 | 3 条（按阅读量降序） | 每个搜索词最多保留 3 篇最优质文章，保证结果多样性 |
														
 
															 | 同一 biz 保留上限 | 3 条 | 超出丢弃，防止单一账号垄断候选 |
														
 
															 ---
														
--- a/tests/skills/demand_analysis.md
+++ b/tests/skills/demand_analysis.md
@@ -1,60 +1,196 @@
 
															 ---
														
 
															 name: demand_analysis
														
 
															-description: 需求分析
														
 
															+description: 需求分析与特征分层（Harness 架构：零工具调用 + 结构化输出）
														
 
															 ---
														
 
															-# 需求分析（仅理解，不执行）
														
 
															+# 需求分析策略
														
 
															-输入：逗号分隔特征词，如 `养老,防骗,政策解读,故事化`。
														
 
															-本步骤只输出结构化理解结果，不调用工具、不执行搜索/过滤/沉淀。
														
 
															+---
														
 
															+
														
 
															+## ⚡ Harness: Fallback — 前置验证（快速失败）
														
 
															+
														
 
															+在执行需求分析前，先验证以下前置条件。**任一失败则立即终止。**
														
 
															+
														
 
															+| 检查项 | 通过条件 | 失败处理 |
														
 
															+|---|---|---|
														
 
															+| query 非空 | `query` 长度 >= 1 | 终止，告知用户"query 为空" |
														
 
															+| target_count 有效 | `target_count >= 1` | 使用默认值 10 |
														
 
															+
														
 
															+---
														
 
															+
														
 
															+## 📋 Harness: Planner — 执行计划（开始前打印）
														
 
															-## 步骤1：特征分层
														
 
															+```
														
 
															+[DemandAnalysisPlanner]
														
 
															+  原始 query          = {query}
														
 
															+  目标文章数          = {target_count}
														
 
															+  历史搜索反馈        = {feedback_count} 条（fallback_round = {round}）
														
 
															+  补充知识源          = {knowledge_sources}
														
 
															+  输出目标            = 特征归类 + 起点策略 + 筛选关注点
														
 
															+```
														
 
															+
														
 
															+---
														
 
															-仅对输入词归类，禁止编造新词。
														
 
															+## 💰 Harness: Budget — 预算约束
														
 
															+
														
 
															+| 预算项 | 限制 | 说明 |
														
 
															+|---|---|---|
														
 
															+| LLM 调用 | 1 次 | 零工具调用，纯理解任务 |
														
 
															+| 输出字段 | 固定 3 个顶层字段 | 特征归类、起点策略、筛选关注点 |
														
 
															+| 精准词候选上限 | <= 6 个 | 避免搜索词过多导致召回质量下降 |
														
 
															+| 主题下钻候选上限 | <= 6 个 | 同上 |
														
 
															+
														
 
															+---
														
 
															+
														
 
															+## ⚙️ Core Execution — 核心执行
														
 
															+
														
 
															+### 步骤 1：特征分层（仅归类，禁止编造）
														
 
															+
														
 
															+**规则 A：实质 vs 形式**
														
 
															+
														
 
															+| 特征类型 | 定义 | 示例 |
														
 
															+|---|---|---|
														
 
															+| 实质特征 | 主题/问题/对象/场景 | "养老"、"防骗"、"政策解读" |
														
 
															+| 形式特征 | 表达方式/结构/语气 | "故事化"、"数据化"、"情绪化" |
														
 
															+
														
 
															+**规则 B：仅对实质特征继续细分**
														
 
															+
														
 
															+| 特征类型 | 定义 | 示例 |
														
 
															+|---|---|---|
														
 
															+| 上层特征 | 宽泛，不能直接检索 | "养老政策" |
														
 
															+| 下层特征 | 具体，可直接检索 | "退休金被骗套路" |
														
 
															+
														
 
															+**约束**：
														
 
															+- `上层 ∪ 下层 = 实质特征`（不重不漏）
														
 
															+- 只能用 query 中已有词语做归类，**禁止编造核心特征**
														
 
															+- 形式特征不参与上层/下层细分
														
 
															+
														
 
															+---
														
 
															+
														
 
															+### 步骤 2：策略判定（只给建议）
														
 
															+
														
 
															+| 条件 | 建议策略 | 输出字段 |
														
 
															+|---|---|---|
														
 
															+| 下层特征非空 | 精准词直搜 | `建议精准词直搜 = true`，`精准词候选 = 下层特征` |
														
 
															+| 上层特征非空 | 主题下钻 | `建议主题下钻 = true`，`主题下钻候选 = 上层特征` |
														
 
															+| 两者都非空 | 并行 | 两个策略都启用 |
														
 
															+| 只有形式特征 | 用原话构造最小词包 | 从 query 中提取核心名词作为精准词候选 |
														
 
															+
														
 
															+---
														
 
															-1. **实质 vs 形式**
														
 
															-   - `实质特征`：主题/问题/对象/场景
														
 
															-   - `形式特征`：表达方式/结构/语气（不参与下一步细分）
														
 
															+### 步骤 3：筛选关注点提取
														
 
															-2. **仅对实质特征继续细分**
														
 
															-   - `上层特征`：宽泛，不能直接检索（如"养老政策"）
														
 
															-   - `下层特征`：具体，可直接检索（如"退休金被骗套路"）
														
 
															-   - 约束：`上层 ∪ 下层 = 实质特征`
														
 
															+| 关注点类型 | 定义 | 示例 |
														
 
															+|---|---|---|
														
 
															+| 形式规则 | 从形式特征推导的筛选规则 | "故事化" → 需要有具体案例 |
														
 
															+| 相关性关注点 | 判断文章是否相关的核心要素 | "养老金" → 必须涉及养老金政策或案例 |
														
 
															+| 淘汰风险点 | 明显不符合需求的关键词 | "广告"、"推销"、"引流加微信"、"恶搞戏说历史"、"纯争议性政治观点输出" |
														
 
															-## 步骤2：策略判定（只给建议）
														
 
															+**淘汰风险点约束**：
														
 
															+- 只包含**明确的低质量信号**，如广告、推销、引流等
														
 
															+- **不包含主观判断**，如"标题党"、"无实质内容"等（这些应由质量筛选阶段判断）
														
 
															+- 保持精简，避免过度过滤
														
 
															-| 条件 | 建议 |
														
 
															+---
														
 
															+
														
 
															+### 步骤 4：搜索词初步拓展（可选，与 query_expansion 阶段协同）
														
 
															+
														
 
															+**目标**：在需求理解阶段就产出初步的搜索词拓展，供后续 query_expansion 阶段参考。
														
 
															+
														
 
															+**规则**：
														
 
															+- 基于实质特征，为每个精准词候选和主题下钻候选生成 1-2 个同义或相关表达
														
 
															+- 不融入爆款特征（爆款特征由 query_expansion 阶段负责）
														
 
															+- 输出到 `起点策略.初步拓展词` 字段（可选字段）
														
 
															+
														
 
															+**示例**：
														
 
															+- 原始词："养老金" → 初步拓展："退休金"、"养老保险"
														
 
															+- 原始词："防骗" → 初步拓展："反诈"、"防诈骗"
														
 
															+
														
 
															+**与 query_expansion 的协同**：
														
 
															+- 需求理解阶段：产出基础同义词拓展（保守）
														
 
															+- query_expansion 阶段：基于爆款特征做深度拓展（激进）
														
 
															+- 两者互补，避免冲突
														
 
															+
														
 
															+---
														
 
															+
														
 
															+### 步骤 5：历史搜索反馈消费（fallback 轮次）
														
 
															+
														
 
															+**当 `fallback_round >= 1` 时**，历史搜索反馈会注入到 prompt 中，包含：
														
 
															+
														
 
															+| 反馈字段 | 含义 | 使用方式 |
														
 
															+|---|---|---|
														
 
															+| `keyword` | 上一轮使用的搜索词 | 评估该词的召回效果 |
														
 
															+| `returned` | 该词返回的文章数 | 判断该词的覆盖面 |
														
 
															+| `new` | 该词新增的文章数（去重后） | 判断该词的有效性 |
														
 
															+| `noise_ratio` | `(returned - new) / returned` | **> 0.6 视为高噪音，该词路应降权或替换** |
														
 
															+| `stopped_early` | 是否提前停搜 | `true` 说明当前词路召回效率足够，应保留高产关键词 |
														
 
															+| `candidate_count` | 累计候选数 | 判断整体召回量是否充足 |
														
 
															+| `fallback_round` | 补召回轮次 | 判断是否需要更激进的策略调整 |
														
 
															+
														
 
															+**决策规则**：
														
 
															+
														
 
															+| 场景 | 决策 |
														
 
															 |---|---|
														
 
															-| 下层特征非空 | 精准词直搜 |
														
 
															-| 上层特征非空 | 主题下钻 |
														
 
															-| 两者都非空 | 并行 |
														
 
															-| 只有形式特征 | 用原话构造最小词包 |
														
 
															+| `noise_ratio > 0.6` 的关键词 | 降权或替换，说明该词召回大量重复内容 |
														
 
															+| `new` 数量高且 `noise_ratio` 低的词 | 优先保留，说明该词路高效 |
														
 
															+| 上一轮 `stopped_early=True` | 当前词路召回效率足够，应保留其高产关键词 |
														
 
															+| 上一轮 `stopped_early=False` 且候选不足 | 需要拓展新的搜索角度，避免重复上一轮的词路 |
														
 
															-## 输出模板
														
 
															+---
														
 
															+
														
 
															+## 输出格式
														
 
															 ```json
														
 
															 {
														
 
															   "特征归类": {
														
 
															-    "实质特征": [],
														
 
															-    "形式特征": [],
														
 
															-    "上层特征": [],
														
 
															-    "下层特征": []
														
 
															+    "实质特征": ["养老", "防骗"],
														
 
															+    "形式特征": ["故事化"],
														
 
															+    "上层特征": ["养老政策"],
														
 
															+    "下层特征": ["退休金被骗套路"]
														
 
															   },
														
 
															   "起点策略": {
														
 
															     "建议精准词直搜": true,
														
 
															     "建议主题下钻": true,
														
 
															-    "精准词候选": [],
														
 
															-    "主题下钻候选": []
														
 
															+    "精准词候选": ["退休金被骗套路"],
														
 
															+    "主题下钻候选": ["养老政策"],
														
 
															+    "初步拓展词": ["退休金", "养老保险", "反诈", "防诈骗"]
														
 
															   },
														
 
															   "筛选关注点": {
														
 
															-    "形式规则": [],
														
 
															-    "相关性关注点": [],
														
 
															-    "淘汰风险点": []
														
 
															+    "形式规则": ["需要有具体案例"],
														
 
															+    "相关性关注点": ["必须涉及养老金政策或案例"],
														
 
															+    "淘汰风险点": ["广告", "推销", "引流加微信", "恶搞戏说历史"]
														
 
															   }
														
 
															 }
														
 
															 ```
														
 
															-## 自检
														
 
															-- 完成实质/形式 + 上层/下层双重标注
														
 
															-- 只输出理解结果，未执行任何动作
														
 
															-- 未引入输入外的核心主题词
														
 
															+**字段约束**：
														
 
															+- `精准词候选` 和 `主题下钻候选` 长度均 <= 6
														
 
															+- `初步拓展词` 为可选字段，长度 <= 8（如果不产出则省略该字段）
														
 
															+- 所有数组字段必须是字符串数组，不能为 `null`（空数组用 `[]`）
														
 
															+- `建议精准词直搜` 和 `建议主题下钻` 必须是布尔值
														
 
															+
														
 
															+---
														
 
															+
														
 
															+## 📊 Harness: Observer — 观测与输出
														
 
															+
														
 
															+### 分析摘要（写入日志 / 传递给下游）
														
 
															+
														
 
															+```
														
 
															+[DemandAnalysisObserver]
														
 
															+  实质特征数          = {len(实质特征)}
														
 
															+  形式特征数          = {len(形式特征)}
														
 
															+  精准词候选数        = {len(精准词候选)}
														
 
															+  主题下钻候选数      = {len(主题下钻候选)}
														
 
															+  淘汰风险点数        = {len(淘汰风险点)}
														
 
															+  历史反馈消费        = {True/False}（fallback_round >= 1）
														
 
															+```
														
 
															+
														
 
															+---
														
 
															+
														
 
															+## 自检清单
														
 
															+
														
 
															+- ✅ 完成实质/形式 + 上层/下层双重标注
														
 
															+- ✅ 只输出理解结果，未执行任何动作（零工具调用）
														
 
															+- ✅ 未引入输入外的核心主题词
														
 
															+- ✅ 精准词候选和主题下钻候选长度均 <= 6
														
 
															+- ✅ 所有字段类型符合约束（数组/布尔值/字符串）
														
--- a/tests/skills/output_schema.md
+++ b/tests/skills/output_schema.md
@@ -3,6 +3,12 @@ name: output_schema
 
															 description: 微信文章搜索任务输出结构规范（文章+账号+关系）
														
 
															 ---
														
 
															+> **注意**：此文件仅作文档参考，未被代码引用。
														
 
															+> 
														
 
															+> `OutputPersistStage` 和 `OutputSchemaGate` 是纯代码驱动，不调用 LLM，不使用 skill。
														
 
															+> 
														
 
															+> 本文件保留作为输出格式的参考文档。
														
 
															+
														
 
															 ## 输出结果指南
														
 
															 ### 输出目录（本地 JSON）