1 ماه پیش · 31daefe53c
--- a/examples/mode_workflow/.server_8772.out
+++ b/examples/mode_workflow/.server_8772.out
--- a/examples/mode_workflow/README.md
+++ b/examples/mode_workflow/README.md
@@ -10,7 +10,6 @@ Dashboard(结果/过程指标可视化)、Dataset(query → 帖子 → 工序/
 
															 ```bash
														
 
															 # 0. 前置:.env 配 MYSQL_* 与 OPEN_ROUTER_API_KEY;pip install -e .
														
 
															 python db.py init             # 建四张表(幂等);db.py clear 清空数据
														
 
															-python import_history.py      # (可选)导入 fixed_query_eval 历史搜索结果
														
 
															 python server.py              # http://localhost:8772
														
 
															 ```
														
@@ -21,10 +20,10 @@ python server.py              # http://localhost:8772
 
															 | `db.py` | 四表 DDL + 全部读写(读 .env MYSQL_*);连接走 `PooledDB` 池(远程 RDS 每次握手 ~0.5s,池复用避免每请求重连) |
														
 
															 | `server.py` | 页面 + API + 解构任务子进程管理(端口 8772);`/api/dashboard` 结果带缓存(任务完成时作废 + 60s 兜底 TTL),`/api/extract` 等带 ETag/304 |
														
 
															 | `index.html` | 单文件前端:Dashboard / Dataset / 聚类库 |
														
 
															-| `pipeline/search_eval.py` | 任意 query 搜索+评估 → search_process / search_tools(按解构方向分表) |
														
 
															-| `pipeline/procedure_extract.py` | 工序解构(LLM 直出)→ mode_process |
														
 
															-| `pipeline/tool_extract.py` | 工具解构 → mode_tools |
														
 
															-| `import_process_knowledge.py` | 已采纳工序(mode_process 最新版)→ 知识导入接口;**读 DB 非本地文件**,采纳口径同 Dashboard(`db.is_adopted_rel`) |
														
 
															+| `stages/search_eval.py` | 任意 query 搜索+评估 → search_process / search_tools(按解构方向分表) |
														
 
															+| `stages/procedure_extract.py` | 工序解构(LLM 直出)→ mode_process |
														
 
															+| `stages/tool_extract.py` | 工具解构 → mode_tools |
														
 
															+| `stages/import_process_knowledge.py` | 已采纳工序(mode_process 最新版)→ 知识导入接口;**读 DB 非本地文件**,采纳口径同 Dashboard(`db.is_adopted_rel`) |
														
 
															 | `prompts/` | 工序/工具解构 system prompt(可单独迭代) |
														
 
															 | `reference/judged_matrix.json` | 内容树(27 动作×50 类型),Dashboard 覆盖度用 |
														
 
															 | `runs/` | 运行日志与调试副本(gitignore):search_process / search_tools / mode_process / mode_tools / logs |
														
@@ -35,8 +34,8 @@ python server.py              # http://localhost:8772
 
															 ## 数据流
														
 
															 ```
														
 
															-新建搜索(UI) → server 子进程 pipeline/search_eval.py → search_process / search_tools(方向分表)
														
 
															-选帖解构(UI) → server 子进程 pipeline/{procedure,tool}_extract.py → mode_process / mode_tools
														
 
															+新建搜索(UI) → server 子进程 stages/search_eval.py → search_process / search_tools(方向分表)
														
 
															+选帖解构(UI) → server 子进程 stages/{procedure,tool}_extract.py → mode_process / mode_tools
														
 
															 Dashboard    → /api/dashboard 实时聚合四表(内容树覆盖按 steps 的 action×type 命中有效节点)
														
 
															 ```
														
@@ -45,7 +44,7 @@ Dashboard    → /api/dashboard 实时聚合四表(内容树覆盖按 steps 的
 
															 聚合统计时按该键去重(见 `server.py:_dashboard` 的 `cost_groups`)。
														
 
															 **解构前按 case 全局去重(省钱):** `case_id` 是帖子物理身份,与 query 无关。同一帖被多个
														
 
															-query 搜到时只真实解构一次——`pipeline/{procedure,tool}_extract.py` 在调 LLM 前先查
														
 
															+query 搜到时只真实解构一次——`stages/{procedure,tool}_extract.py` 在调 LLM 前先查
														
 
															 `db.latest_real_version(case_id)`,已解构过的帖跨 query 用 `db.link_process` 复制 `link_*`
														
 
															 行补齐关联(`cost=0`),不再付费重跑。换 prompt/模型要对比时传 `--force`(API `force:true`)
														
 
															 跳过去重。`runs/backfill_links.py` 是事后扫尾工具,复用同一 `link_process`。
														
@@ -59,11 +58,11 @@ query 搜到时只真实解构一次——`pipeline/{procedure,tool}_extract.py`
 
															 `Downloads/import/how_process_knowledge/main.py` 一致(steps→scopes/custom_ext)。
														
 
															 ```bash
														
 
															-python import_process_knowledge.py --dry-run            # 只取数+组装 payload,不调接口(先验证)
														
 
															-python import_process_knowledge.py --dry-run -v         # 同上,打印完整 payload JSON
														
 
															-python import_process_knowledge.py --query-id q0001     # 只传某搜索任务下的采纳 case
														
 
															-python import_process_knowledge.py --limit 5            # 只处理前 5 个 case(调试)
														
 
															-python import_process_knowledge.py                      # 真实导入(去掉 --dry-run)
														
 
															+python stages/import_process_knowledge.py --dry-run            # 只取数+组装 payload,不调接口(先验证)
														
 
															+python stages/import_process_knowledge.py --dry-run -v         # 同上,打印完整 payload JSON
														
 
															+python stages/import_process_knowledge.py --query-id q0001     # 只传某搜索任务下的采纳 case
														
 
															+python stages/import_process_knowledge.py --limit 5            # 只处理前 5 个 case(调试)
														
 
															+python stages/import_process_knowledge.py                      # 真实导入(去掉 --dry-run)
														
 
															 # 其它:--api-url <根地址>(默认 47.236.83.130:8001)  --delay <毫秒>(调用间隔,默认 100)
														
 
															 ```
														
--- a/examples/mode_workflow/_batch_reeval_q0000.py
+++ b/examples/mode_workflow/_batch_reeval_q0000.py
@@ -1,141 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""批量重评 q0000 下当前【命中(is_adopted)】的帖子,用 flash-lite+sonnet 组合(模糊带升级),
														
 
															-跑完定向替换 DB 的得分相关字段(overall_score / knowledge_type / llm_evaluation)。
														
 
															-先备份旧值到 runs/search_process/q0000.score_backup.<ts>.json,可回滚。"""
														
 
															-import asyncio, copy, json, sys
														
 
															-from datetime import datetime
														
 
															-from pathlib import Path
														
 
															-
														
 
															-PROJECT_ROOT = Path(__file__).resolve().parents[3]
														
 
															-sys.path.insert(0, str(PROJECT_ROOT))
														
 
															-from dotenv import load_dotenv
														
 
															-load_dotenv()
														
 
															-
														
 
															-MW = Path(__file__).resolve().parent
														
 
															-sys.path.insert(0, str(MW))
														
 
															-import db
														
 
															-from examples.process_pipeline.script.search_eval.search_and_evaluate import evaluate_posts
														
 
															-from examples.process_pipeline.script.llm_evaluate_sources import (
														
 
															-    _EVAL_PRODUCT_FIELDS, build_eval_llm_call,
														
 
															-)
														
 
															-
														
 
															-QUERY_ID = "q0000"
														
 
															-TABLE = "search_process"
														
 
															-INIT_MODEL = "gemini-flash-lite"
														
 
															-ESC_MODEL = "sonnet"
														
 
															-BAND = (4.0, 6.0)
														
 
															-
														
 
															-
														
 
															-def _load_db_rows():
														
 
															-    conn = db._conn()
														
 
															-    try:
														
 
															-        with conn.cursor() as c:
														
 
															-            c.execute(f"SELECT case_id, overall_score, knowledge_type, publish_time, "
														
 
															-                      f"llm_evaluation FROM {TABLE} WHERE query_id=%s", (QUERY_ID,))
														
 
															-            return c.fetchall()
														
 
															-    finally:
														
 
															-        conn.close()
														
 
															-
														
 
															-
														
 
															-def _update_scores(case_id, overall, knowledge_type, evaluation):
														
 
															-    conn = db._conn()
														
 
															-    try:
														
 
															-        with conn.cursor() as c:
														
 
															-            c.execute(
														
 
															-                f"UPDATE {TABLE} SET overall_score=%s, knowledge_type=%s, llm_evaluation=%s, "
														
 
															-                f"updated_at=CURRENT_TIMESTAMP WHERE query_id=%s AND case_id=%s",
														
 
															-                (overall, db._j(knowledge_type or []), db._j(evaluation), QUERY_ID, case_id))
														
 
															-    finally:
														
 
															-        conn.close()
														
 
															-
														
 
															-
														
 
															-async def main():
														
 
															-    rows = _load_db_rows()
														
 
															-    def _ev(r):
														
 
															-        e = r["llm_evaluation"]
														
 
															-        return json.loads(e) if isinstance(e, str) else (e or {})
														
 
															-    adopted = [r for r in rows if db.is_adopted(r["overall_score"], _ev(r), r["publish_time"])]
														
 
															-    adopted_ids = {r["case_id"] for r in adopted}
														
 
															-    print(f"q0000 共 {len(rows)} 帖,当前命中 {len(adopted)} 帖 → 重评这些\n")
														
 
															-
														
 
															-    # 备份旧得分字段
														
 
															-    ts = datetime.now().strftime("%Y%m%d_%H%M%S")
														
 
															-    backup = [{"case_id": r["case_id"], "overall_score": r["overall_score"],
														
 
															-               "knowledge_type": r["knowledge_type"], "publish_time": r["publish_time"],
														
 
															-               "llm_evaluation": _ev(r)} for r in adopted]
														
 
															-    bpath = MW / "runs" / TABLE / f"{QUERY_ID}.score_backup.{ts}.json"
														
 
															-    bpath.write_text(json.dumps(backup, ensure_ascii=False, indent=2), encoding="utf-8")
														
 
															-    print(f"💾 旧得分已备份 → {bpath.name}\n")
														
 
															-
														
 
															-    # 从 runs json 取完整帖子(含配图)作为重评输入
														
 
															-    data = json.loads((MW / "runs" / TABLE / f"{QUERY_ID}.json").read_text(encoding="utf-8"))
														
 
															-    query = data.get("query", "")
														
 
															-    by_id = {s["case_id"]: s for s in data.get("results", [])}
														
 
															-    missing = [cid for cid in adopted_ids if cid not in by_id]
														
 
															-    if missing:
														
 
															-        print(f"⚠️ runs json 缺 {len(missing)} 条,将跳过: {missing}")
														
 
															-    targets = []
														
 
															-    for cid in adopted_ids:
														
 
															-        if cid not in by_id:
														
 
															-            continue
														
 
															-        s = copy.deepcopy(by_id[cid])
														
 
															-        for k in _EVAL_PRODUCT_FIELDS:
														
 
															-            s.pop(k, None)
														
 
															-        s.pop("_image_data_urls", None)
														
 
															-        targets.append(s)
														
 
															-
														
 
															-    eval_llm, eval_model = build_eval_llm_call(INIT_MODEL)
														
 
															-    esc_llm, esc_model = build_eval_llm_call(ESC_MODEL)
														
 
															-    print(f"🧠 组合评估:{eval_model} 初评 → {esc_model} 复核(带 [{BAND[0]:g},{BAND[1]:g}])\n")
														
 
															-    sources, cost = await evaluate_posts(
														
 
															-        targets, "", eval_llm, eval_model, max_concurrent=4,
														
 
															-        include_images=True, max_images=4, image_mode="url", query=query,
														
 
															-        escalate_llm=esc_llm, escalate_model=esc_model, escalate_band=BAND)
														
 
															-
														
 
															-    # 旧分查表
														
 
															-    old_by_id = {r["case_id"]: r for r in adopted}
														
 
															-    report = []
														
 
															-    for s in sources:
														
 
															-        cid = s["case_id"]
														
 
															-        ev = s["llm_evaluation"]
														
 
															-        if not isinstance(ev, dict) or ev.get("_error"):
														
 
															-            print(f"   ⚠️ 评估失败,跳过更新: {cid}")
														
 
															-            continue
														
 
															-        kt = ev.get("知识类型") or []
														
 
															-        ov = db.overall_score(ev)
														
 
															-        pub = (s.get("post") or {}).get("publish_timestamp") or old_by_id[cid]["publish_time"]
														
 
															-        new_adopt = db.is_adopted(ov, ev, pub)
														
 
															-        _update_scores(cid, ov, kt, ev)            # 定向替换 DB
														
 
															-        by_id[cid]["llm_evaluation"] = ev          # 同步 runs json
														
 
															-        report.append({
														
 
															-            "case_id": cid, "escalated": bool(s.get("_escalated")),
														
 
															-            "old_overall": old_by_id[cid]["overall_score"], "new_overall": ov,
														
 
															-            "repro": db._fixed_dim_score(ev, "可复现性"),
														
 
															-            "intent": db._fixed_dim_score(ev, "意图可控性"),
														
 
															-            "new_adopted": new_adopt,
														
 
															-            "title": (s.get("post") or {}).get("title", "")[:22],
														
 
															-        })
														
 
															-
														
 
															-    # 同步 runs json
														
 
															-    (MW / "runs" / TABLE / f"{QUERY_ID}.json").write_text(
														
 
															-        json.dumps(data, ensure_ascii=False, indent=2), encoding="utf-8")
														
 
															-
														
 
															-    # 报告
														
 
															-    print("\n" + "=" * 92)
														
 
															-    print(f"{'case_id':26} {'升级':4} {'旧综':>5} {'新综':>5} {'复现':>4} {'意图':>4} {'命中':>5}  标题")
														
 
															-    still = 0
														
 
															-    for r in sorted(report, key=lambda x: x["new_overall"]):
														
 
															-        still += int(r["new_adopted"])
														
 
															-        print(f"{r['case_id'][:26]:26} {'★' if r['escalated'] else ' ':^4} "
														
 
															-              f"{(r['old_overall'] or 0):5.2f} {(r['new_overall'] or 0):5.2f} "
														
 
															-              f"{str(r['repro']):>4} {str(r['intent']):>4} "
														
 
															-              f"{'是' if r['new_adopted'] else '否':>4}  {r['title']}")
														
 
															-    esc_n = sum(r["escalated"] for r in report)
														
 
															-    print("=" * 92)
														
 
															-    print(f"重评 {len(report)} 帖 · 升级 sonnet {esc_n} 帖 · 命中 {len(adopted)}→{still} · "
														
 
															-          f"总成本 ${cost:.4f}")
														
 
															-    print(f"DB 已更新,旧值备份在 {bpath.name}")
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    asyncio.run(main())
														
--- a/examples/mode_workflow/_batch_reeval_q0020.py
+++ b/examples/mode_workflow/_batch_reeval_q0020.py
@@ -1,141 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""批量重评 q0000 下当前【命中(is_adopted)】的帖子,用 flash-lite+sonnet 组合(模糊带升级),
														
 
															-跑完定向替换 DB 的得分相关字段(overall_score / knowledge_type / llm_evaluation)。
														
 
															-先备份旧值到 runs/search_process/q0000.score_backup.<ts>.json,可回滚。"""
														
 
															-import asyncio, copy, json, sys
														
 
															-from datetime import datetime
														
 
															-from pathlib import Path
														
 
															-
														
 
															-PROJECT_ROOT = Path(__file__).resolve().parents[3]
														
 
															-sys.path.insert(0, str(PROJECT_ROOT))
														
 
															-from dotenv import load_dotenv
														
 
															-load_dotenv()
														
 
															-
														
 
															-MW = Path(__file__).resolve().parent
														
 
															-sys.path.insert(0, str(MW))
														
 
															-import db
														
 
															-from examples.process_pipeline.script.search_eval.search_and_evaluate import evaluate_posts
														
 
															-from examples.process_pipeline.script.llm_evaluate_sources import (
														
 
															-    _EVAL_PRODUCT_FIELDS, build_eval_llm_call,
														
 
															-)
														
 
															-
														
 
															-QUERY_ID = "q0020"
														
 
															-TABLE = "search_process"
														
 
															-INIT_MODEL = "gemini-flash-lite"
														
 
															-ESC_MODEL = "sonnet"
														
 
															-BAND = (4.0, 6.0)
														
 
															-
														
 
															-
														
 
															-def _load_db_rows():
														
 
															-    conn = db._conn()
														
 
															-    try:
														
 
															-        with conn.cursor() as c:
														
 
															-            c.execute(f"SELECT case_id, overall_score, knowledge_type, publish_time, "
														
 
															-                      f"llm_evaluation FROM {TABLE} WHERE query_id=%s", (QUERY_ID,))
														
 
															-            return c.fetchall()
														
 
															-    finally:
														
 
															-        conn.close()
														
 
															-
														
 
															-
														
 
															-def _update_scores(case_id, overall, knowledge_type, evaluation):
														
 
															-    conn = db._conn()
														
 
															-    try:
														
 
															-        with conn.cursor() as c:
														
 
															-            c.execute(
														
 
															-                f"UPDATE {TABLE} SET overall_score=%s, knowledge_type=%s, llm_evaluation=%s, "
														
 
															-                f"updated_at=CURRENT_TIMESTAMP WHERE query_id=%s AND case_id=%s",
														
 
															-                (overall, db._j(knowledge_type or []), db._j(evaluation), QUERY_ID, case_id))
														
 
															-    finally:
														
 
															-        conn.close()
														
 
															-
														
 
															-
														
 
															-async def main():
														
 
															-    rows = _load_db_rows()
														
 
															-    def _ev(r):
														
 
															-        e = r["llm_evaluation"]
														
 
															-        return json.loads(e) if isinstance(e, str) else (e or {})
														
 
															-    adopted = [r for r in rows if db.is_adopted(r["overall_score"], _ev(r), r["publish_time"])]
														
 
															-    adopted_ids = {r["case_id"] for r in adopted}
														
 
															-    print(f"q0000 共 {len(rows)} 帖,当前命中 {len(adopted)} 帖 → 重评这些\n")
														
 
															-
														
 
															-    # 备份旧得分字段
														
 
															-    ts = datetime.now().strftime("%Y%m%d_%H%M%S")
														
 
															-    backup = [{"case_id": r["case_id"], "overall_score": r["overall_score"],
														
 
															-               "knowledge_type": r["knowledge_type"], "publish_time": r["publish_time"],
														
 
															-               "llm_evaluation": _ev(r)} for r in adopted]
														
 
															-    bpath = MW / "runs" / TABLE / f"{QUERY_ID}.score_backup.{ts}.json"
														
 
															-    bpath.write_text(json.dumps(backup, ensure_ascii=False, indent=2), encoding="utf-8")
														
 
															-    print(f"💾 旧得分已备份 → {bpath.name}\n")
														
 
															-
														
 
															-    # 从 runs json 取完整帖子(含配图)作为重评输入
														
 
															-    data = json.loads((MW / "runs" / TABLE / f"{QUERY_ID}.json").read_text(encoding="utf-8"))
														
 
															-    query = data.get("query", "")
														
 
															-    by_id = {s["case_id"]: s for s in data.get("results", [])}
														
 
															-    missing = [cid for cid in adopted_ids if cid not in by_id]
														
 
															-    if missing:
														
 
															-        print(f"⚠️ runs json 缺 {len(missing)} 条,将跳过: {missing}")
														
 
															-    targets = []
														
 
															-    for cid in adopted_ids:
														
 
															-        if cid not in by_id:
														
 
															-            continue
														
 
															-        s = copy.deepcopy(by_id[cid])
														
 
															-        for k in _EVAL_PRODUCT_FIELDS:
														
 
															-            s.pop(k, None)
														
 
															-        s.pop("_image_data_urls", None)
														
 
															-        targets.append(s)
														
 
															-
														
 
															-    eval_llm, eval_model = build_eval_llm_call(INIT_MODEL)
														
 
															-    esc_llm, esc_model = build_eval_llm_call(ESC_MODEL)
														
 
															-    print(f"🧠 组合评估:{eval_model} 初评 → {esc_model} 复核(带 [{BAND[0]:g},{BAND[1]:g}])\n")
														
 
															-    sources, cost = await evaluate_posts(
														
 
															-        targets, "", eval_llm, eval_model, max_concurrent=4,
														
 
															-        include_images=True, max_images=4, image_mode="url", query=query,
														
 
															-        escalate_llm=esc_llm, escalate_model=esc_model, escalate_band=BAND)
														
 
															-
														
 
															-    # 旧分查表
														
 
															-    old_by_id = {r["case_id"]: r for r in adopted}
														
 
															-    report = []
														
 
															-    for s in sources:
														
 
															-        cid = s["case_id"]
														
 
															-        ev = s["llm_evaluation"]
														
 
															-        if not isinstance(ev, dict) or ev.get("_error"):
														
 
															-            print(f"   ⚠️ 评估失败,跳过更新: {cid}")
														
 
															-            continue
														
 
															-        kt = ev.get("知识类型") or []
														
 
															-        ov = db.overall_score(ev)
														
 
															-        pub = (s.get("post") or {}).get("publish_timestamp") or old_by_id[cid]["publish_time"]
														
 
															-        new_adopt = db.is_adopted(ov, ev, pub)
														
 
															-        _update_scores(cid, ov, kt, ev)            # 定向替换 DB
														
 
															-        by_id[cid]["llm_evaluation"] = ev          # 同步 runs json
														
 
															-        report.append({
														
 
															-            "case_id": cid, "escalated": bool(s.get("_escalated")),
														
 
															-            "old_overall": old_by_id[cid]["overall_score"], "new_overall": ov,
														
 
															-            "repro": db._fixed_dim_score(ev, "可复现性"),
														
 
															-            "intent": db._fixed_dim_score(ev, "意图可控性"),
														
 
															-            "new_adopted": new_adopt,
														
 
															-            "title": (s.get("post") or {}).get("title", "")[:22],
														
 
															-        })
														
 
															-
														
 
															-    # 同步 runs json
														
 
															-    (MW / "runs" / TABLE / f"{QUERY_ID}.json").write_text(
														
 
															-        json.dumps(data, ensure_ascii=False, indent=2), encoding="utf-8")
														
 
															-
														
 
															-    # 报告
														
 
															-    print("\n" + "=" * 92)
														
 
															-    print(f"{'case_id':26} {'升级':4} {'旧综':>5} {'新综':>5} {'复现':>4} {'意图':>4} {'命中':>5}  标题")
														
 
															-    still = 0
														
 
															-    for r in sorted(report, key=lambda x: x["new_overall"]):
														
 
															-        still += int(r["new_adopted"])
														
 
															-        print(f"{r['case_id'][:26]:26} {'★' if r['escalated'] else ' ':^4} "
														
 
															-              f"{(r['old_overall'] or 0):5.2f} {(r['new_overall'] or 0):5.2f} "
														
 
															-              f"{str(r['repro']):>4} {str(r['intent']):>4} "
														
 
															-              f"{'是' if r['new_adopted'] else '否':>4}  {r['title']}")
														
 
															-    esc_n = sum(r["escalated"] for r in report)
														
 
															-    print("=" * 92)
														
 
															-    print(f"重评 {len(report)} 帖 · 升级 sonnet {esc_n} 帖 · 命中 {len(adopted)}→{still} · "
														
 
															-          f"总成本 ${cost:.4f}")
														
 
															-    print(f"DB 已更新,旧值备份在 {bpath.name}")
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    asyncio.run(main())
														
--- a/examples/mode_workflow/_reeval_one.py
+++ b/examples/mode_workflow/_reeval_one.py
@@ -1,109 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""一次性:用当前 eval_prompt_template.md 对单条已存帖子重评(复用生产评估链路 evaluate_posts)。
														
 
															-支持 --escalate-model 演示 sonnet+flash-lite 组合(模糊带升级)。"""
														
 
															-import argparse, asyncio, json, sys
														
 
															-from datetime import datetime
														
 
															-from pathlib import Path
														
 
															-
														
 
															-PROJECT_ROOT = Path(__file__).resolve().parents[3]   # …/Agent
														
 
															-sys.path.insert(0, str(PROJECT_ROOT))
														
 
															-from dotenv import load_dotenv
														
 
															-load_dotenv()
														
 
															-
														
 
															-MW = Path(__file__).resolve().parent
														
 
															-sys.path.insert(0, str(MW))
														
 
															-import db
														
 
															-
														
 
															-from examples.process_pipeline.script.search_eval.search_and_evaluate import evaluate_posts
														
 
															-from examples.process_pipeline.script.llm_evaluate_sources import (
														
 
															-    _EVAL_PRODUCT_FIELDS, build_eval_llm_call, DEFAULT_EVAL_MODEL,
														
 
															-)
														
 
															-
														
 
															-
														
 
															-def _load(query_id):
														
 
															-    return json.loads((MW / "runs" / "search_process" / f"{query_id}.json")
														
 
															-                      .read_text(encoding="utf-8"))
														
 
															-
														
 
															-
														
 
															-def _save(query_id, data):
														
 
															-    (MW / "runs" / "search_process" / f"{query_id}.json").write_text(
														
 
															-        json.dumps(data, ensure_ascii=False, indent=2), encoding="utf-8")
														
 
															-
														
 
															-
														
 
															-async def main():
														
 
															-    ap = argparse.ArgumentParser()
														
 
															-    ap.add_argument("--query-id", required=True)
														
 
															-    ap.add_argument("--case-id", required=True)
														
 
															-    ap.add_argument("--query", default="")
														
 
															-    ap.add_argument("--model", default=DEFAULT_EVAL_MODEL)
														
 
															-    ap.add_argument("--escalate-model", default="")
														
 
															-    ap.add_argument("--escalate-band", type=float, nargs=2, default=[4.0, 6.0])
														
 
															-    ap.add_argument("--max-images", type=int, default=4)
														
 
															-    ap.add_argument("--persist", action="store_true",
														
 
															-                    help="把新评估写回 DB(overall_score/knowledge_type/llm_evaluation),落库前先备份旧值")
														
 
															-    a = ap.parse_args()
														
 
															-
														
 
															-    data = _load(a.query_id)
														
 
															-    query = a.query or data.get("query", "")
														
 
															-    src = next((s for s in data.get("results", []) if s.get("case_id") == a.case_id), None)
														
 
															-    if not src:
														
 
															-        raise SystemExit(f"未找到 case_id={a.case_id}")
														
 
															-    for k in _EVAL_PRODUCT_FIELDS:
														
 
															-        src.pop(k, None)
														
 
															-
														
 
															-    llm_call, model_id = build_eval_llm_call(a.model)
														
 
															-    esc_llm = esc_model = None
														
 
															-    if a.escalate_model:
														
 
															-        esc_llm, esc_model = build_eval_llm_call(a.escalate_model)
														
 
															-    print(f"▶ 重评 {a.case_id}  初评={model_id}"
														
 
															-          + (f"  升级={esc_model} 带[{a.escalate_band[0]:g},{a.escalate_band[1]:g}]" if esc_model else "")
														
 
															-          + f"  query={query!r}\n")
														
 
															-
														
 
															-    sources, cost = await evaluate_posts(
														
 
															-        [src], "", llm_call, model_id, max_concurrent=1,
														
 
															-        include_images=True, max_images=a.max_images, image_mode="url", query=query,
														
 
															-        escalate_llm=esc_llm, escalate_model=esc_model, escalate_band=tuple(a.escalate_band),
														
 
															-    )
														
 
															-    ev = sources[0]["llm_evaluation"]
														
 
															-    overall = db.overall_score(ev)
														
 
															-    pub = (src.get("post") or {}).get("publish_timestamp", "")
														
 
															-    adopted = db.is_adopted(overall, ev, pub)
														
 
															-
														
 
															-    print("\n" + "=" * 60)
														
 
															-    print(f"最终评估模型 = {sources[0].get('_escalated') or model_id}")
														
 
															-    print(f"综合分(overall_score) = {overall}")
														
 
															-    print(f"  · 和内容制作知识相关 = {((ev.get('相关性') or {}).get('和内容制作知识相关') or {}).get('得分')}")
														
 
															-    print(f"  · 实现完整性/可复现门槛 = {db._repro_score(ev)}   (门槛 <4 → 不采纳)")
														
 
															-    print(f"  · 意图可控性        = {db._fixed_dim_score(ev, '意图可控性')}  (暂只采分)")
														
 
															-    print(f"采纳判定(is_adopted)  = {adopted}")
														
 
															-    print(f"总成本 ≈ ${cost:.4f}")
														
 
															-
														
 
															-    if a.persist:
														
 
															-        if not isinstance(ev, dict) or ev.get("_error"):
														
 
															-            raise SystemExit("评估结果异常(_error),拒绝落库")
														
 
															-        # 1) 备份旧 DB 行(overall_score/knowledge_type/llm_evaluation/publish_time)
														
 
															-        old = next((p for p in db.fetch_posts(a.query_id, "process")
														
 
															-                    if p["case_id"] == a.case_id), None)
														
 
															-        if old is None:
														
 
															-            raise SystemExit(f"DB 无此行,无法落库: query={a.query_id} case={a.case_id}")
														
 
															-        ts = datetime.now().strftime("%Y%m%d_%H%M%S")
														
 
															-        bpath = (MW / "runs" / "search_process"
														
 
															-                 / f"{a.query_id}.{a.case_id}.score_backup.{ts}.json")
														
 
															-        bpath.write_text(json.dumps({
														
 
															-            "query_id": a.query_id, "case_id": a.case_id,
														
 
															-            "old_overall_score": old.get("overall_score"),
														
 
															-            "old_knowledge_type": old.get("knowledge_type"),
														
 
															-            "old_llm_evaluation": old.get("llm_evaluation"),
														
 
															-            "old_adopted": old.get("adopted"),
														
 
															-        }, ensure_ascii=False, indent=2), encoding="utf-8")
														
 
															-        # 2) 写回 DB(派生列 overall_score/knowledge_type 由 update_post_eval 重算)
														
 
															-        n = db.update_post_eval(a.query_id, a.case_id, ev, table="search_process")
														
 
															-        # 3) 同步 runs json,保持后续重评输入一致
														
 
															-        src["llm_evaluation"] = ev
														
 
															-        _save(a.query_id, data)
														
 
															-        print(f"\n💾 旧值已备份 → {bpath.name}")
														
 
															-        print(f"✅ DB 已更新 {n} 行(overall={overall} 采纳={adopted})")
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    asyncio.run(main())
														
--- a/examples/mode_workflow/db.py
+++ b/examples/mode_workflow/db.py
@@ -177,7 +177,7 @@ CREATE TABLE IF NOT EXISTS mode_tools (
 
															 """
														
 
															-# 工序知识「已导入知识库」台账:防重复上传(import_process_knowledge.py 用)。
														
 
															+# 工序知识「已导入知识库」台账:防重复上传(stages/import_process_knowledge.py 用)。
														
 
															 # 每条知识 = 某 case 的某个工序(proc_index 1-based)。记录导入时的 mode_process 版本:
														
 
															 # 版本变了(重解构)说明内容已变,应重导;版本不变即视为「已传过」,跳过。
														
 
															 # 选 DB 台账而非本地文件,是为了换机器/换链接后也不会重复写知识库。
														
@@ -848,7 +848,7 @@ def update_post_eval(query_id, case_id, evaluation, table="search_process"):
 
															         conn.close()
														
 
															-# ── 上传去重:知识库已导入台账(import_process_knowledge.py 用)────────────────
														
 
															+# ── 上传去重:知识库已导入台账(stages/import_process_knowledge.py 用)────────────────
														
 
															 def fetch_ingested_map(case_id):
														
 
															     """返回 {proc_index: version} —— 该 case 各工序已导入知识库的版本。空表示没传过。"""
														
--- a/examples/mode_workflow/eval_compare.py
+++ b/examples/mode_workflow/eval_compare.py
@@ -1,113 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""一次性:用当前 eval_prompt_template.md(新 prompt)对单帖重评,与库里旧评估对比打分。
														
 
															-用法: python eval_compare.py <query_id> <case_id>
														
 
															-"""
														
 
															-import argparse
														
 
															-import asyncio
														
 
															-import json
														
 
															-import sys
														
 
															-from pathlib import Path
														
 
															-
														
 
															-PROJECT_ROOT = Path(__file__).resolve().parents[2]   # …/Agent
														
 
															-sys.path.insert(0, str(PROJECT_ROOT))
														
 
															-from dotenv import load_dotenv
														
 
															-load_dotenv()
														
 
															-
														
 
															-HERE = Path(__file__).resolve().parent
														
 
															-sys.path.insert(0, str(HERE))
														
 
															-import db
														
 
															-
														
 
															-from examples.process_pipeline.script.search_eval.search_and_evaluate import _attach_image_refs
														
 
															-from examples.process_pipeline.script.llm_evaluate_sources import (
														
 
															-    _evaluate_one, build_eval_llm_call, DEFAULT_EVAL_MODEL,
														
 
															-)
														
 
															-
														
 
															-
														
 
															-def _row_to_source(row):
														
 
															-    return {
														
 
															-        "case_id": row["case_id"], "platform": row["platform"],
														
 
															-        "channel_content_id": row["channel_content_id"], "source_url": row["url"],
														
 
															-        "post": {
														
 
															-            "title": row["title"], "body_text": row["body"],
														
 
															-            "images": row["images"] or [], "like_count": row["like_count"],
														
 
															-            "publish_timestamp": row["publish_time"], "link": row["url"],
														
 
															-        },
														
 
															-    }
														
 
															-
														
 
															-
														
 
															-def flatten_scores(blob, prefix=""):
														
 
															-    """blob → {dotted_path: 得分}。只收叶子 {得分:...} 节点。"""
														
 
															-    out = {}
														
 
															-    if not isinstance(blob, dict):
														
 
															-        return out
														
 
															-    if "得分" in blob:
														
 
															-        out[prefix.rstrip(".")] = blob.get("得分")
														
 
															-        return out
														
 
															-    for k, v in blob.items():
														
 
															-        if isinstance(v, dict):
														
 
															-            out.update(flatten_scores(v, f"{prefix}{k}."))
														
 
															-    return out
														
 
															-
														
 
															-
														
 
															-async def main():
														
 
															-    ap = argparse.ArgumentParser()
														
 
															-    ap.add_argument("query_id")
														
 
															-    ap.add_argument("case_id")
														
 
															-    ap.add_argument("--model", default=DEFAULT_EVAL_MODEL)
														
 
															-    ap.add_argument("--max-images", type=int, default=4)
														
 
															-    args = ap.parse_args()
														
 
															-
														
 
															-    row = db.fetch_post(args.query_id, args.case_id, table="search_process")
														
 
															-    if not row:
														
 
															-        print(f"❌ {args.query_id}/{args.case_id} 不在 search_process"); return 1
														
 
															-    old_blob = row.get("llm_evaluation") or {}
														
 
															-
														
 
															-    src = _row_to_source(row)
														
 
															-    await _attach_image_refs([src], args.max_images, 8, "url")
														
 
															-    n_img = len(src.get("_image_data_urls") or [])
														
 
															-    print(f"📄 {args.case_id} | {(row['title'] or '')[:40]} | 配图 {n_img} 张 | 模型 {args.model}")
														
 
															-    print(f"🔍 检索词: {row['query_text']}\n")
														
 
															-
														
 
															-    eval_llm, model_id = build_eval_llm_call(args.model)
														
 
															-    sem = asyncio.Semaphore(1)
														
 
															-    new_blob, cost = await _evaluate_one(
														
 
															-        src, "", eval_llm, model_id, sem,
														
 
															-        image_urls=src.get("_image_data_urls"), query=row["query_text"])
														
 
															-    if new_blob is None:
														
 
															-        print("❌ 新评估失败(重试耗尽)"); return 1
														
 
															-
														
 
															-    old_f = flatten_scores(old_blob)
														
 
															-    new_f = flatten_scores(new_blob)
														
 
															-    keys = sorted(set(old_f) | set(new_f))
														
 
															-    print(f"{'维度路径':<46} {'旧分':>6} {'新分':>6}   变化")
														
 
															-    print("─" * 72)
														
 
															-    for k in keys:
														
 
															-        o, n = old_f.get(k), new_f.get(k)
														
 
															-        mark = ""
														
 
															-        try:
														
 
															-            if o is not None and n is not None and float(o) != float(n):
														
 
															-                mark = f"  {float(o):g}→{float(n):g}"
														
 
															-        except (TypeError, ValueError):
														
 
															-            pass
														
 
															-        only = "" if (k in old_f and k in new_f) else ("  (旧无)" if k not in old_f else "  (新无)")
														
 
															-        print(f"{k:<46} {str(o) if o is not None else '-':>6} {str(n) if n is not None else '-':>6}{mark}{only}")
														
 
															-
														
 
															-    print("─" * 72)
														
 
															-    o_overall, n_overall = db.overall_score(old_blob), db.overall_score(new_blob)
														
 
															-    o_adopt = db.is_adopted(o_overall, old_blob, row["publish_time"])
														
 
															-    n_adopt = db.is_adopted(n_overall, new_blob, row["publish_time"])
														
 
															-    print(f"{'overall_score':<46} {str(o_overall):>6} {str(n_overall):>6}")
														
 
															-    print(f"{'知识类型':<46} {str(old_blob.get('知识类型')):>6} | {new_blob.get('知识类型')}")
														
 
															-    print(f"{'是否采纳':<46} {str(o_adopt):>6} {str(n_adopt):>6}")
														
 
															-    print(f"\n💲 本次重评成本 ${cost:.4f}")
														
 
															-
														
 
															-    # 落盘完整新 blob,便于细看理由
														
 
															-    out = HERE / "runs" / f"eval_compare_{args.case_id}.json"
														
 
															-    out.write_text(json.dumps({"old": old_blob, "new": new_blob}, ensure_ascii=False, indent=2),
														
 
															-                   encoding="utf-8")
														
 
															-    print(f"📝 完整新旧 blob(含理由): {out}")
														
 
															-    return 0
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    raise SystemExit(asyncio.run(main()))
														
--- a/examples/mode_workflow/import_history.py
+++ b/examples/mode_workflow/import_history.py
@@ -1,48 +0,0 @@
 
															-# -*- coding: utf-8 -*-
														
 
															-"""一次性导入:fixed_query_eval/runs_full/*/form_A.json → 搜索表。
														
 
															-幂等(upsert),可反复执行。默认导入 search_process(工序方向)。
														
 
															-
														
 
															-用法:
														
 
															-  python import_history.py
														
 
															-  python import_history.py --runs-dir /path/to/runs_full --table search_tools
														
 
															-"""
														
 
															-import argparse
														
 
															-import json
														
 
															-import sys
														
 
															-from pathlib import Path
														
 
															-
														
 
															-HERE = Path(__file__).resolve().parent
														
 
															-sys.path.insert(0, str(HERE))
														
 
															-import db
														
 
															-
														
 
															-DEFAULT_RUNS = (HERE.parent / "process_pipeline" / "script" / "search_eval"
														
 
															-                / "fixed_query_eval" / "runs_full")
														
 
															-
														
 
															-
														
 
															-def main():
														
 
															-    p = argparse.ArgumentParser(description="历史搜索结果导入搜索表")
														
 
															-    p.add_argument("--runs-dir", default=str(DEFAULT_RUNS))
														
 
															-    p.add_argument("--table", default="search_process",
														
 
															-                   choices=["search_process", "search_tools"])
														
 
															-    args = p.parse_args()
														
 
															-
														
 
															-    runs = Path(args.runs_dir)
														
 
															-    files = sorted(runs.glob("q*/form_A.json"))
														
 
															-    if not files:
														
 
															-        print(f"❌ {runs} 下没有 q*/form_A.json"); return 1
														
 
															-
														
 
															-    total = 0
														
 
															-    for f in files:
														
 
															-        data = json.loads(f.read_text(encoding="utf-8"))
														
 
															-        qid = f.parent.name
														
 
															-        results = data.get("results", [])
														
 
															-        n = db.upsert_search_posts(qid, data.get("query") or data.get("original_q"),
														
 
															-                                   results, table=args.table)
														
 
															-        print(f"  {qid}: 文件 {len(results)} 条 → 入库 {n} 条")
														
 
															-        total += n
														
 
															-    print(f"✅ 共导入 {total} 条 → {args.table}")
														
 
															-    return 0
														
 
															-
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    raise SystemExit(main())
														
--- a/examples/mode_workflow/server.py
+++ b/examples/mode_workflow/server.py
@@ -495,8 +495,8 @@ class Handler(BaseHTTPRequestHandler):
 
															                     return self._json({"task_id": None, "skipped": skipped,
														
 
															                                        "note": "所选帖子正在解构中,已跳过(防并发重复解构)"})
														
 
															                 try:
														
 
															-                    script = ("pipeline/procedure_extract.py" if mode == "process"
														
 
															-                              else "pipeline/tool_extract.py")
														
 
															+                    script = ("stages/procedure_extract.py" if mode == "process"
														
 
															+                              else "stages/tool_extract.py")
														
 
															                     cmd = [sys.executable, script, "--query-id", qid,
														
 
															                            "--case-ids", ",".join(claimed)]
														
 
															                     if payload.get("model"):
														
@@ -522,7 +522,7 @@ class Handler(BaseHTTPRequestHandler):
 
															                 if not query:
														
 
															                     return self._err("缺 query")
														
 
															                 qid = payload.get("query_id") or _next_query_id()
														
 
															-                cmd = [sys.executable, "pipeline/search_eval.py",
														
 
															+                cmd = [sys.executable, "stages/search_eval.py",
														
 
															                        "--query-id", qid, "--query", query]
														
 
															                 if payload.get("synonyms"):
														
 
															                     cmd += ["--synonyms", payload["synonyms"]]
														
--- a/examples/mode_workflow/stages/import_process_knowledge.py
+++ b/examples/mode_workflow/stages/import_process_knowledge.py
@@ -21,13 +21,13 @@
 
															 采纳口径:db.is_adopted_rel(相关性<4 / 发布超两年 / 综合分<6 任一命中即不采纳)。
														
 
															 用法:
														
 
															-    python import_process_knowledge.py                      # 真实导入(采纳工序全量)
														
 
															-    python import_process_knowledge.py --dry-run            # 只组装+打印,不调接口
														
 
															-    python import_process_knowledge.py --dry-run --verbose  # 打印完整 payload JSON
														
 
															-    python import_process_knowledge.py --query-id q0001     # 只传某搜索任务下的采纳 case
														
 
															-    python import_process_knowledge.py --limit 5            # 只处理前 5 个 case(调试)
														
 
															-    python import_process_knowledge.py --api-url http://... # 指定后端地址
														
 
															-    python import_process_knowledge.py --delay 200          # 每次调用间隔 200ms
														
 
															+    python stages/import_process_knowledge.py                      # 真实导入(采纳工序全量)
														
 
															+    python stages/import_process_knowledge.py --dry-run            # 只组装+打印,不调接口
														
 
															+    python stages/import_process_knowledge.py --dry-run --verbose  # 打印完整 payload JSON
														
 
															+    python stages/import_process_knowledge.py --query-id q0001     # 只传某搜索任务下的采纳 case
														
 
															+    python stages/import_process_knowledge.py --limit 5            # 只处理前 5 个 case(调试)
														
 
															+    python stages/import_process_knowledge.py --api-url http://... # 指定后端地址
														
 
															+    python stages/import_process_knowledge.py --delay 200          # 每次调用间隔 200ms
														
 
															 """
														
 
															 import argparse
														
@@ -38,6 +38,9 @@ import time
 
															 import requests
														
 
															+# 本脚本归档在 stages/ 子目录,补 mode_workflow/ 到 sys.path 以裸 import db
														
 
															+from pathlib import Path
														
 
															+sys.path.insert(0, str(Path(__file__).resolve().parent.parent))
														
 
															 import db
														
 
															 # ── 配置(对齐参考实现)────────────────────────────────────────────────────────
														
--- a/examples/mode_workflow/pipeline/procedure_extract.py
+++ b/examples/mode_workflow/pipeline/procedure_extract.py
@@ -5,8 +5,8 @@
 
															 配图下载转 base64(绕防盗链)随文本一起发。结果按工序拆行写 mode_process。
														
 
															 用法(一般由 server.py 起子进程调):
														
 
															-  python pipeline/procedure_extract.py --query-id q0000 --case-ids xhs_abc
														
 
															-  python pipeline/procedure_extract.py --query-id q0000 --case-ids xhs_abc --model google/gemini-3.1-flash-lite
														
 
															+  python stages/procedure_extract.py --query-id q0000 --case-ids xhs_abc
														
 
															+  python stages/procedure_extract.py --query-id q0000 --case-ids xhs_abc --model google/gemini-3.1-flash-lite
														
 
															 """
														
 
															 import argparse
														
 
															 import asyncio
														
--- a/examples/mode_workflow/pipeline/search_eval.py
+++ b/examples/mode_workflow/pipeline/search_eval.py
@@ -5,8 +5,8 @@
 
															 引擎函数全部只读复用 search_and_evaluate.py(搜索/去重/转写/评估/英平台翻译)。
														
 
															 用法(一般由 server.py 起子进程调):
														
 
															-  python pipeline/search_eval.py --query-id q0004 --query "AI 人像 图片 生成 怎么做"
														
 
															-  python pipeline/search_eval.py --query-id q0005 --query "GPT image2 评测" \
														
 
															+  python stages/search_eval.py --query-id q0004 --query "AI 人像 图片 生成 怎么做"
														
 
															+  python stages/search_eval.py --query-id q0005 --query "GPT image2 评测" \
														
 
															       --synonyms "GPT image2 测评,GPT image2 实测" --platforms xhs,gzh --max-count 10
														
 
															 """
														
 
															 import argparse
														
--- a/examples/mode_workflow/pipeline/tool_extract.py
+++ b/examples/mode_workflow/pipeline/tool_extract.py
@@ -7,8 +7,8 @@
 
															 - 写库:db.replace_tools(同版本幂等,跨版本保留);runs/mode_tools/ 留调试副本
														
 
															 用法(一般由 server.py 起子进程调):
														
 
															-  python pipeline/tool_extract.py --query-id q0000 --case-ids xhs_abc,gzh_def
														
 
															-  python pipeline/tool_extract.py --query-id q0000 --case-ids xhs_abc --model anthropic/claude-sonnet-4-6
														
 
															+  python stages/tool_extract.py --query-id q0000 --case-ids xhs_abc,gzh_def
														
 
															+  python stages/tool_extract.py --query-id q0000 --case-ids xhs_abc --model anthropic/claude-sonnet-4-6
														
 
															 """
														
 
															 import argparse
														
 
															 import asyncio
														
@@ -28,7 +28,7 @@ from examples.process_pipeline.script.search_eval.search_and_evaluate import _at
 
															 from examples.process_pipeline.script.llm_evaluate_sources import _format_post_for_eval, build_eval_llm_call
														
 
															 from examples.process_pipeline.script.llm_helper import call_llm_with_retry
														
 
															-HERE = Path(__file__).resolve().parent          # pipeline/
														
 
															+HERE = Path(__file__).resolve().parent          # stages/
														
 
															 MW = HERE.parent                                 # mode_workflow/
														
 
															 sys.path.insert(0, str(MW))
														
 
															 import db
														
--- a/examples/mode_workflow/流程执行手册.md
+++ b/examples/mode_workflow/流程执行手册.md
@@ -20,7 +20,7 @@ cd /Users/max_liu/max_liu/company/Agent/examples/mode_workflow
 
															 约定:
														
 
															 - **渠道代码**:`xhs` = 小红书,`gzh` = 公众号(还有 `sph` 视频号、`douyin`、`zhihu` 等,以支持搜索的为准)。
														
 
															 - **方向**:`工序`(怎么做/流程)写 `search_process` / `mode_process`;`工具`(测评/工具)写 `search_tools` / `mode_tools`。本手册走**工序**。
														
 
															-- 脚本基本都带 `-h`,记不清参数时 `python3 pipeline/xxx.py -h`。
														
 
															+- 脚本基本都带 `-h`,记不清参数时 `python3 stages/xxx.py -h`。
														
 
															 ---
														
@@ -38,7 +38,7 @@ python3 -c "import server; print(server._next_query_id())"
 
															 ### 2) 跑搜索 + 评估
														
 
															 ```bash
														
 
															-python3 pipeline/search_eval.py \
														
 
															+python3 stages/search_eval.py \
														
 
															   --query-id q0020 \
														
 
															   --query "人物 姿势 精准控制 怎么做" \
														
 
															   --mode-type 工序 \
														
@@ -82,7 +82,7 @@ echo "$CIDS"
 
															 ### 2) 跑工序解构
														
 
															 ```bash
														
 
															-python3 pipeline/procedure_extract.py \
														
 
															+python3 stages/procedure_extract.py \
														
 
															   --query-id q0020 \
														
 
															   --case-ids "$CIDS"
														
 
															 ```
														
@@ -94,7 +94,7 @@ python3 pipeline/procedure_extract.py \
 
															 > **解构去重(默认开)**:某 case 若**已真实解构过**(任意 query),不会再调大模型 —— 同 query 直接跳过,跨 query 用 `link_*` 复制补齐关联(成本 $0)。要换 prompt/模型重解构才加 `--force`。
														
 
															-> 工具方向同理,换脚本:`python3 pipeline/tool_extract.py --query-id q0020 --case-ids "$CIDS"`(需先有 `search_tools` 数据)。
														
 
															+> 工具方向同理,换脚本:`python3 stages/tool_extract.py --query-id q0020 --case-ids "$CIDS"`(需先有 `search_tools` 数据)。
														
 
															 ---
														
@@ -106,14 +106,14 @@ python3 pipeline/procedure_extract.py \
 
															 ### 1) 先 dry-run 看条数(不真传)
														
 
															 ```bash
														
 
															-python3 import_process_knowledge.py --query-id q0020 --dry-run
														
 
															+python3 stages/import_process_knowledge.py --query-id q0020 --dry-run
														
 
															 # 看「发现 N 个采纳 case … 合计导入 M」,确认范围对
														
 
															 ```
														
 
															 ### 2) 真实上传
														
 
															 ```bash
														
 
															-python3 import_process_knowledge.py --query-id q0020
														
 
															+python3 stages/import_process_knowledge.py --query-id q0020
														
 
															 ```
														
 
															 要点:
														
@@ -135,16 +135,16 @@ QID=q0021                                   # 用步骤1的 _next_query_id() 拿
 
															 QUERY="你的检索词 怎么做"
														
 
															 # 2) 搜索+评估
														
 
															-python3 pipeline/search_eval.py --query-id "$QID" --query "$QUERY" \
														
 
															+python3 stages/search_eval.py --query-id "$QID" --query "$QUERY" \
														
 
															   --mode-type 工序 --platforms xhs,gzh --max-count 20
														
 
															 # 3) 取采纳 → 工序解构
														
 
															 CIDS=$(python3 -c "import db; print(','.join(p['case_id'] for p in db.fetch_posts('$QID','process') if p.get('adopted')))")
														
 
															-[ -n "$CIDS" ] && python3 pipeline/procedure_extract.py --query-id "$QID" --case-ids "$CIDS"
														
 
															+[ -n "$CIDS" ] && python3 stages/procedure_extract.py --query-id "$QID" --case-ids "$CIDS"
														
 
															 # 4) 上传(先 dry-run 再真传)
														
 
															-python3 import_process_knowledge.py --query-id "$QID" --dry-run
														
 
															-python3 import_process_knowledge.py --query-id "$QID"
														
 
															+python3 stages/import_process_knowledge.py --query-id "$QID" --dry-run
														
 
															+python3 stages/import_process_knowledge.py --query-id "$QID"
														
 
															 ```
														
 
															 > 每步都是**前台阻塞**跑,跑完再跑下一步,日志直接打在终端。