lint-case.py 33 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687
  1. #!/usr/bin/env python3
  2. # -*- coding: utf-8 -*-
  3. """
  4. lint-case.py — workflow.json 轻量 lint + 自动 record 新 type 到 type_suggestions.md.
  5. 设计哲学: **不严格**.
  6. - 不分 error/warning 等级, 不卡 exit code (都返 0)
  7. - 主要副作用是 record 新 type 到 spec/taxonomy/type_suggestions.md
  8. - 检测项打 stdout 给 Agent / 用户看, 决定要不要回去修
  9. 用法:
  10. python spec/tools/lint-case.py --workflow outputs/case-{N}/workflow.json --case-id {N}
  11. python spec/tools/lint-case.py --workflow outputs/case-{N}/workflow.json --case-id {N} --no-record # 只校验不写
  12. 退出码:
  13. 0 始终 (不阻塞流程)
  14. 2 CLI 参数错误 / 文件不存在
  15. """
  16. from __future__ import annotations
  17. import argparse
  18. import json
  19. import re
  20. import sys
  21. from pathlib import Path
  22. # spec/tools/lint-case.py → procedure-dsl/
  23. DSL_ROOT = Path(__file__).resolve().parent.parent.parent
  24. TYPE_JSON = DSL_ROOT / 'spec' / 'taxonomy' / 'type.json'
  25. SUGGESTIONS = DSL_ROOT / 'spec' / 'taxonomy' / 'type_suggestions.md'
  26. # Windows 控制台 UTF-8
  27. for _s in (sys.stdout, sys.stderr):
  28. if hasattr(_s, 'reconfigure'):
  29. try:
  30. _s.reconfigure(encoding='utf-8', errors='replace')
  31. except Exception:
  32. pass
  33. def load_type_leaves() -> set[str]:
  34. """读 spec/taxonomy/type.json 的 $leaves 集合."""
  35. if not TYPE_JSON.exists():
  36. return set()
  37. return set(json.loads(TYPE_JSON.read_text(encoding='utf-8')).get('$leaves', []))
  38. # ===========================================================================
  39. # Check 1: type 完整性提示
  40. # ===========================================================================
  41. def _iter_procedures(case_data: dict):
  42. """遍历 workflow.json 的 procedures.
  43. Yields: (procedure_label, procedure_dict) — 含 steps + type_registry.
  44. """
  45. for p in case_data.get('procedures') or []:
  46. label = p.get('id') or p.get('name') or '?'
  47. yield (label, p)
  48. def check_type_completeness(case_data: dict) -> list[str]:
  49. """IO 用了 case-specific type 但 type_registry 漏写 entry → 提示.
  50. 只 hint 不 fail. Agent 看输出回去修.
  51. 多工序时, hint 前缀加 [proc_id] 让用户知道是哪个工序的问题.
  52. """
  53. leaves = load_type_leaves()
  54. hints: list[str] = []
  55. for proc_label, proc in _iter_procedures(case_data):
  56. type_reg = proc.get('type_registry') or {}
  57. for i, step in enumerate(proc.get('steps') or []):
  58. if not isinstance(step, dict):
  59. continue
  60. for kind in ('inputs', 'outputs'):
  61. for j, item in enumerate(step.get(kind) or []):
  62. if not isinstance(item, dict):
  63. continue
  64. t = item.get('type', '') or ''
  65. if not t:
  66. continue
  67. if t in leaves:
  68. continue # 字典叶子, OK
  69. if t not in type_reg:
  70. hints.append(
  71. f"[{proc_label}] step[{i}].{kind}[{j}].type={t!r} 是 case-specific "
  72. f"但 type_registry 没注册"
  73. )
  74. else:
  75. entry = type_reg[t]
  76. if isinstance(entry, dict):
  77. if not entry.get('extends'):
  78. hints.append(f"[{proc_label}] type_registry[{t!r}] 缺 extends 字段")
  79. if not entry.get('desc'):
  80. hints.append(f"[{proc_label}] type_registry[{t!r}] 缺 desc 字段 (renderer drawer 显示需要)")
  81. return hints
  82. # ===========================================================================
  83. # Check 2: value / directive 自包含性 (禁止引用占位)
  84. # ===========================================================================
  85. # value/directive 应填数据本身, 不是 anchor 的引用. 命中即「没真正回填」.
  86. META_REF = re.compile(r'[((]?\s*同\s*s[\d]|见\s*s[\d]|←\s*s[\d]|同上')
  87. def check_value_selfcontained(case_data: dict) -> list[str]:
  88. """扫每个 IO 的 value + 每个 directive, 找「引用占位」文案 (同 sX / 见 sX / ← sX ...).
  89. spec: value 逐字回填数据本身, 引用归 anchor (workflow-format.md §2 数据流).
  90. 这种占位 schema/type 检查抓不到, 专门一条. 只 hint. 可用
  91. `wf-patch.py --resolve-passthrough` 自动从源回填.
  92. """
  93. hints: list[str] = []
  94. for proc_label, proc in _iter_procedures(case_data):
  95. for i, step in enumerate(proc.get('steps') or []):
  96. if not isinstance(step, dict):
  97. continue
  98. for kind in ('inputs', 'outputs'):
  99. for j, item in enumerate(step.get(kind) or []):
  100. if not isinstance(item, dict):
  101. continue
  102. v = item.get('value')
  103. if isinstance(v, str) and META_REF.search(v):
  104. hints.append(f"[{proc_label}] step[{i}].{kind}[{j}].value 是引用占位 {v[:24]!r} — 应逐字回填数据本身")
  105. t = step.get('directive')
  106. if isinstance(t, str) and META_REF.search(t):
  107. hints.append(f"[{proc_label}] step[{i}].directive 是引用占位 {t[:24]!r} — 应填实际 prompt 原文")
  108. return hints
  109. # ===========================================================================
  110. # Check 2b: anchor 闭合 (透传输入回填了没 + anchor 格式对不对)
  111. # ===========================================================================
  112. # JSON 路径式 anchor (错): ← p1.s1.outputs[0] / ← s3.inputs[1] / ...outputs[0].id;
  113. # 正确写法是输出**编号** ← s1o1 (或 ← 工序输入 / ← sNoM[i])。只认 .outputs[/.inputs[ 这种
  114. # 明确的路径序列化, 不误伤 ← s2.正向提示词 这类按名引用、← s5o1[-1] 这类带索引的合法编号。
  115. _ANCHOR_JSONPATH = re.compile(r'\.(?:outputs|inputs)\[')
  116. def check_anchor_closure(case_data: dict) -> list[str]:
  117. """透传输入(带 ← anchor)有没有真把 value/type 回填 + anchor 是不是写成了 JSON 路径。
  118. case-2-test-1 暴露的静默丢数据: 模型给输入设了 anchor 却——
  119. A. 漏跑 `wf-patch --resolve-passthrough` → value/type 一直空, verify/lint 当时都没拦;
  120. B. anchor 写成 JSON 路径 `← p1.s1.outputs[0]` 而非编号 `← s1o1` → resolve 永远匹配不上。
  121. 两者都是**确定性**判断(空/非空、是不是路径), 适合做硬门禁(render 前也跑, 逼回填)。
  122. 只查输入(透传方向 ←); 按名引用 `← s2.正向提示词`、带索引 `← s5o1[-1]` 都放行。
  123. """
  124. issues: list[str] = []
  125. for proc_label, proc in _iter_procedures(case_data):
  126. for i, step in enumerate(proc.get('steps') or []):
  127. if not isinstance(step, dict):
  128. continue
  129. for j, io in enumerate(step.get('inputs') or []):
  130. if not isinstance(io, dict) or io.get('inferred'):
  131. continue
  132. anchor = (io.get('anchor') or '').strip()
  133. if not anchor.startswith('←'):
  134. continue
  135. ref = anchor[1:].strip()
  136. # B. JSON 路径式 anchor (resolve 永远匹配不上)
  137. if _ANCHOR_JSONPATH.search(ref):
  138. issues.append(
  139. f"[{proc_label}] step[{i}].inputs[{j}] anchor={anchor[:32]!r} 是 JSON 路径写法 — "
  140. f"数据流来源要用**输出编号**(如 ← s1o1), 不是 ← p1.s1.outputs[0]; "
  141. f"否则 --resolve-passthrough 匹配不到、value 永远空")
  142. continue
  143. # 外部/工序输入 (← 工序输入 / ← 输入) 是参数, 上游无 step 输出可抄, value 可空 → 不强制
  144. ref_base = ref.split('[')[0].strip()
  145. if ref_base in ('工序输入', '输入') or ref_base.startswith('工序输入'):
  146. continue
  147. # A. 引用了上游 step 输出却 value/type 空 = 透传没回填
  148. v, t = io.get('value'), io.get('type')
  149. v_empty = v is None or (isinstance(v, str) and not v.strip())
  150. t_empty = t is None or (isinstance(t, str) and not t.strip())
  151. miss = [n for n, e in (('value', v_empty), ('type', t_empty)) if e]
  152. if miss:
  153. issues.append(
  154. f"[{proc_label}] step[{i}].inputs[{j}] 有 ← anchor({anchor[:20]!r}) 但 {'/'.join(miss)} 空 — "
  155. f"透传没回填: 跑 `wf-patch.py --resolve-passthrough` 顺编号自动抄上游内容, "
  156. f"或确认 anchor 指向的输出本身非空")
  157. return issues
  158. def check_skeleton_filled(case_data: dict) -> list[str]:
  159. """Phase 1 干骨架(via/value/anchor 空)必须由 Phase 2.0 填满, 这些空字段不该活到 render。
  160. case-2-test-2 暴露的「填充整体没做」: 步骤 via 空、输入 value 和 anchor 都空——schema 把它们
  161. 声明成无 minLength 的 string, 空串合法; 占位门禁只抓 <占位>; anchor 门禁只查带 ← 的输入,
  162. 于是「连 ← 都没有、value 也空」的纯骨架残留一路漏到成品。这条专补这个洞:
  163. - kind=step/nested 的 via 空 = 步骤没工具(控制块 kind=block 用 via='-' 合法, 不算);
  164. - 输入 value 和 anchor 都空 = 既无内容(字面量)也无来源(数据流);
  165. - 输出 value 空 = 这步没产物。输出的 → anchor 是去处不是内容, 所以输出**必须有 value**
  166. (文本类逐字内容 / 媒体类 <描述>), 没有"用 anchor 顶替"的退路。
  167. 都是确定性判断, 适合做硬门禁。inferred IO 豁免。
  168. """
  169. issues: list[str] = []
  170. for proc_label, proc in _iter_procedures(case_data):
  171. for i, step in enumerate(proc.get('steps') or []):
  172. if not isinstance(step, dict):
  173. continue
  174. kind = step.get('kind', 'step')
  175. via = (step.get('via') or '').strip()
  176. if kind in ('step', 'nested') and not via:
  177. issues.append(
  178. f"[{proc_label}] step[{i}](id={step.get('id')}) via 空 — 步骤要写用的工具"
  179. f"(如 nano_banana / human / 剪映); 只有控制块 kind=block 才用 via='-'")
  180. for j, io in enumerate(step.get('inputs') or []):
  181. if not isinstance(io, dict) or io.get('inferred'):
  182. continue
  183. v, a = io.get('value'), (io.get('anchor') or '').strip()
  184. v_empty = v is None or (isinstance(v, str) and not v.strip())
  185. if v_empty and not a:
  186. issues.append(
  187. f"[{proc_label}] step[{i}].inputs[{j}] type={io.get('type', '')!r} 的 value 和 anchor 都空 — "
  188. f"输入要么填字面量 value(@quote 拽原文), 要么用 anchor ← 上游编号 引数据流; 二者必有其一")
  189. for j, io in enumerate(step.get('outputs') or []):
  190. if not isinstance(io, dict) or io.get('inferred'):
  191. continue
  192. v = io.get('value')
  193. if v is None or (isinstance(v, str) and not v.strip()):
  194. issues.append(
  195. f"[{proc_label}] step[{i}].outputs[{j}] type={io.get('type', '')!r} 的 value 空 — "
  196. f"输出是这步的产物, 必须有值: 文本类填逐字内容、媒体类填 <描述>; "
  197. f"原文确无则用 <占位>(原文未提供) 或标 inferred:true")
  198. return issues
  199. # ===========================================================================
  200. # Check 3: value 占位 / directive 缺失 (提示用 quote-source 回填真内容)
  201. # ===========================================================================
  202. # 纯 <...> 占位 (value 该填真实内容, <...> 仅限无文字的图/视频)
  203. PLACEHOLDER_RE = re.compile(r'^\s*<[^>]*>\s*$')
  204. # 模态分类关键词 (TEXT 优先于 MEDIA, 因 "配音文案" 这类既含媒体词又是文本)
  205. _TEXT_KW = ('提示词', '描述', '参数', '评', '大纲', '脚本', '文案', '歌词', '字幕',
  206. '标题', '正文', '词', '知识', '工作流', '对标', '规格', '批处理', '模板', '版式',
  207. '数据', '分析', '报告', '记录', '方案', '思路', '设定', '依据', '标准', '清单', '列表', '文本', '文字')
  208. _MEDIA_KW = ('图', '视频', '音频', '帧', '片段', '截图', '蒙版', '音效', '配音', 'BGM',
  209. '数字人', '滤镜', '海报', '封面')
  210. def _type_modality(type_name: str, type_reg: dict) -> str:
  211. """按类型名(case-specific 类型先经 type_registry.extends 解析到 stdlib 叶子)判模态.
  212. 返回 'media' (图/视频/音频 — 可 <描述>) / 'text' (提示词/数据/报告 — 必须真实文本) / 'unknown'.
  213. media 用关键词可靠识别; 非 media 一律按"需真实文本"对待 (data/text 占多数, 宁严勿漏).
  214. """
  215. base, seen = type_name, set()
  216. while base in (type_reg or {}) and base not in seen:
  217. seen.add(base)
  218. ent = type_reg[base]
  219. ext = ent.get('extends') if isinstance(ent, dict) else None
  220. if not ext:
  221. break
  222. base = ext
  223. nm = base or type_name or ''
  224. if any(k in nm for k in _TEXT_KW):
  225. return 'text'
  226. if any(k in nm for k in _MEDIA_KW):
  227. return 'media'
  228. return 'unknown'
  229. def check_placeholder_content(case_data: dict) -> list[str]:
  230. """逐 IO 按模态审计 value + 工具步骤 directive → 提示用 quote-source 回填真内容.
  231. 规则 (phase1 §value): 文本类 IO(提示词/数据/报告)的 value 必须是从原文匹配到的真实内容,
  232. 不能写 <…> 占位; 原文确实没有 → 标 inferred:true + inferred_reason 显式说明 (本检查放行).
  233. 媒体类 IO(图/视频/音频)允许 <具体描述>. 工具步骤(via 是具体工具)必须带原文那段 prompt 当 directive.
  234. 弱模型常把所有 value 写成 <…> 占位、整个漏 directive (实测 test-7 全踩), 这条逐 IO 抓, 只 hint.
  235. """
  236. hints: list[str] = []
  237. for proc_label, proc in _iter_procedures(case_data):
  238. type_reg = proc.get('type_registry') or {}
  239. for i, step in enumerate(proc.get('steps') or []):
  240. if not isinstance(step, dict):
  241. continue
  242. for kind in ('inputs', 'outputs'):
  243. for j, item in enumerate(step.get(kind) or []):
  244. if not isinstance(item, dict):
  245. continue
  246. if item.get('inferred'): # 已显式标 inferred 说明 → 放行
  247. continue
  248. v = item.get('value')
  249. if not isinstance(v, str):
  250. continue
  251. if re.search(r'原文(未提供|未给出|没有|无)', v):
  252. continue # 显式标「原文未提供」→ 放行 (LLM 确认原文确无)
  253. if not PLACEHOLDER_RE.match(v):
  254. continue # value 不是 <…> 占位 (已填真内容)
  255. t = item.get('type', '') or ''
  256. mod = _type_modality(t, type_reg)
  257. if mod == 'media':
  258. continue # 图/视频/音频 用 <描述> 合理
  259. label = '文本类' if mod == 'text' else '非媒体(疑似数据/文本)'
  260. # 输出占位 = 步骤产出物没回填; 原文/OCR 里通常紧跟在 prompt 后展示了它
  261. extra = (';这是步骤**产出物**, 原文/配图 OCR 里常紧跟 prompt 展示了它, '
  262. '用 quote-source --from/--to 把那段产出也捞进 value') if kind == 'outputs' else ''
  263. hints.append(
  264. f"[{proc_label}] step[{i}].{kind}[{j}] type={t!r}({label}) value={v.strip()!r} 仍是占位 "
  265. f"—— 你即便已 quote 到原文也**必须把真实内容替换进 value**(别只填 directive){extra}; "
  266. f"原文确无则标 inferred:true + inferred_reason; 若其实是无文字图/视频, 让类型/描述体现"
  267. )
  268. via = (step.get('via') or '').strip()
  269. directive = (step.get('directive') or '').strip()
  270. if step.get('kind', 'step') == 'step' and via and via not in ('human', '-') and not directive:
  271. hints.append(
  272. f"[{proc_label}] step[{i}](via={via!r}) directive 空 — 若原文有给工具的提示词/指令, "
  273. f"用 quote-source 捞原文那段填进 directive"
  274. )
  275. # substance/form 缺失 (Phase 2 该提炼实质/形式; 纯技术步可显式设 null, 但别整个漏掉 key)
  276. if step.get('kind', 'step') in ('step', 'nested'):
  277. miss = [f for f in ('substance', 'form') if f not in step]
  278. if miss:
  279. hints.append(
  280. f"[{proc_label}] step[{i}] 缺 {'/'.join(miss)} — Phase 2 漏做了实质/形式提炼; "
  281. f"读懂这步内容提炼元素点填上(纯技术步可显式设 null, 但别漏掉字段)"
  282. )
  283. # intent 缺失 (Phase 2 每步都要填目的列, 一句话概括)
  284. if step.get('kind', 'step') in ('step', 'block', 'nested') and not (step.get('intent') or '').strip():
  285. hints.append(
  286. f"[{proc_label}] step[{i}] 缺 intent — Phase 2 每步都要填目的列(一句话概括这步在做什么, ≤25 字)"
  287. )
  288. return hints
  289. # ===========================================================================
  290. # Check 4: 章节覆盖 (结构强制 — 需 --source) + value 逐字 (值强制 — 需 --source)
  291. # ===========================================================================
  292. #
  293. # 弱模型在 Phase 1 骨架阶段走两条最省力的路, 都靠"看原文"才抓得到:
  294. # (结构) 只挑两个最显眼的工序就收工, 整段章节(框架/附加案例/总结)漏抽
  295. # (值) 挑中的 value 也打字缩写成标题纲要, 不是逐字原文 (能过 render 门禁因为不是 <占位>)
  296. # 这两条 check 都需要原文 (--source input/case-N.json [--ocr ocr.txt]) 才能比对.
  297. # 比对噪声: 空白 + 各式引号 (原文 “”、骨架常写成 「」/"",内容一致只是引号风格不同, 不该算缩写)
  298. _QUOTE_NOISE = dict.fromkeys(map(ord, '「」『』“”‘’"\'"''), None)
  299. def _norm(s: str) -> str:
  300. """归一化用于子串比对: 去所有空白 (原文常把一个词拆到两行) + 抹掉引号风格差异."""
  301. return re.sub(r'\s+', '', s or '').translate(_QUOTE_NOISE)
  302. def _load_source_corpus(source_path: Path | None, ocr_path: Path | None) -> tuple[str, str]:
  303. """读原文语料: 返回 (raw_text, normed). raw 用来切章节, normed 用来子串比对.
  304. source = input/case-N.json 的 title + body_text; ocr = 配图 OCR 文本 (可选).
  305. """
  306. parts: list[str] = []
  307. if source_path and source_path.exists():
  308. try:
  309. sd = json.loads(source_path.read_text(encoding='utf-8'))
  310. parts.append(sd.get('title', '') or '')
  311. parts.append(sd.get('body_text', '') or sd.get('content', '') or '')
  312. except Exception:
  313. parts.append(source_path.read_text(encoding='utf-8'))
  314. if ocr_path and ocr_path.exists():
  315. parts.append(ocr_path.read_text(encoding='utf-8'))
  316. raw = '\n'.join(parts)
  317. return raw, _norm(raw)
  318. def _sections(body: str) -> list[tuple[str, str, str]]:
  319. """切原文章节: 按行首 `0N |` 标号 (排除 `图 0N |` 配图说明). 返回 [(号, 标题, 正文段)]."""
  320. marks = [(m.start(), m.group(1)) for m in re.finditer(r'(?m)^\s*(0\d)\s*[||]', body)]
  321. out: list[tuple[str, str, str]] = []
  322. for idx, (pos, num) in enumerate(marks):
  323. end = marks[idx + 1][0] if idx + 1 < len(marks) else len(body)
  324. seg = body[pos:end]
  325. after = re.split(r'[||]', seg, 1)
  326. tail = after[-1] if len(after) > 1 else seg
  327. title = ''
  328. for line in tail.splitlines():
  329. line = line.strip()
  330. if line:
  331. title = line[:24]
  332. break
  333. out.append((num, title, seg))
  334. return out
  335. # 章节正文里的"要点标记": 思路X / 第X层 / 第X步 / 案例X / 冒号短标签 (人物特征:…)
  336. _POINT_MARKER = re.compile(
  337. r'(?m)^\s*(思路[一二三四五]|第[一二三四五六七八九十]+[层步]|案例[一二三四五六七八九十]+)')
  338. _POINT_COLON = re.compile(r'(?m)^\s*([^\n::((]{2,12})\s*[::]')
  339. def _section_points(seg: str) -> list[str]:
  340. """抽一节正文的要点短语 (用来量化它被骨架覆盖了多少)."""
  341. pts: list[str] = []
  342. for m in _POINT_MARKER.finditer(seg):
  343. line = seg[m.start():].splitlines()[0].strip()
  344. pts.append(line[:16])
  345. for m in _POINT_COLON.finditer(seg):
  346. lab = m.group(1).strip()
  347. # 纯序号标记 (第X步/第X层/思路X/案例X) 是结构序号不是内容要点, 骨架改写成动作后必然对不上 → 跳过
  348. if re.fullmatch(r'(思路[一二三四五]|第[一二三四五六七八九十]+[层步]|案例[一二三四五六七八九十]+)', lab):
  349. continue
  350. if re.search(r'[一-龥]', lab):
  351. pts.append(lab)
  352. seen: set[str] = set()
  353. out: list[str] = []
  354. for p in pts:
  355. if p and p not in seen:
  356. seen.add(p)
  357. out.append(p)
  358. return out
  359. def _point_covered(point: str, wf_norm: str) -> bool:
  360. """要点是否被骨架覆盖: 去掉结构前缀后, 任一 4-gram 命中 workflow 文本即算覆盖 (从宽)."""
  361. core = re.sub(r'^(思路[一二三四五]|第[一二三四五六七八九十]+[层步]|案例[一二三四五六七八九十]+)', '', point)
  362. core = _norm(core) or _norm(point)
  363. if len(core) < 4:
  364. return core in wf_norm
  365. return any(core[k:k + 4] in wf_norm for k in range(len(core) - 3))
  366. def check_section_coverage(case_data: dict, source_raw: str, wf_norm: str) -> list[str]:
  367. """结构强制: 逐章节算骨架覆盖率, 整段漏抽的章节 (<40%) 报出来 + 给缺失要点样例."""
  368. hints: list[str] = []
  369. secs = _sections(source_raw)
  370. if not secs:
  371. return hints
  372. for num, title, seg in secs:
  373. pts = _section_points(seg)
  374. if len(pts) < 2:
  375. continue # 没足够要点 (纯过渡/口号段), 不评判
  376. missed = [p for p in pts if not _point_covered(p, wf_norm)]
  377. ratio = 1 - len(missed) / len(pts)
  378. if ratio < 0.40:
  379. sample = '、'.join(missed[:5])
  380. hints.append(
  381. f"章节『{num} {title}』覆盖率 {ratio:.0%} ({len(pts) - len(missed)}/{len(pts)} 要点) "
  382. f"—— 疑似整段漏抽; 缺: {sample}{' …' if len(missed) > 5 else ''}; "
  383. f"回去为它补 procedure/step (每个 0N 章节至少对应一个工序或子步骤)"
  384. )
  385. return hints
  386. def _longest_run(v_norm: str, source_norm: str) -> int:
  387. """value 在原文里能连续命中的最长子串长度. 逐字原文应是原文一整段连续文本;
  388. 拼接/缩写出来的(把分散的小标题用、串起来)最长连续命中会很短."""
  389. n = len(v_norm)
  390. best = 0
  391. for i in range(n):
  392. if n - i <= best:
  393. break # 剩余长度已不可能超过 best
  394. lo, hi = 0, n - i
  395. while lo < hi: # 二分该起点能命中的最长长度
  396. mid = (lo + hi + 1) // 2
  397. if v_norm[i:i + mid] in source_norm:
  398. lo = mid
  399. else:
  400. hi = mid - 1
  401. if lo > best:
  402. best = lo
  403. return best
  404. def check_value_verbatim(case_data: dict, source_norm: str) -> list[str]:
  405. """值强制: 文本类 value 必须是原文里的「一整段连续文本」. 最长连续命中 <80% 判缩写/改写/截断.
  406. 跳过: 占位<…>(归 check3)、inferred、原文未提供、未 resolve 的 @quote、媒体类、短值(<12字).
  407. 用最长连续命中而非逐子句覆盖: 后者会被「人物、产品、环境」这种"原文小标题拼盘"骗过
  408. (每个词单独在原文里, 但整体不是任何一段原文 — 真正的逐字细节全被丢了).
  409. """
  410. hints: list[str] = []
  411. if not source_norm:
  412. return hints
  413. for proc_label, proc in _iter_procedures(case_data):
  414. type_reg = proc.get('type_registry') or {}
  415. for i, step in enumerate(proc.get('steps') or []):
  416. if not isinstance(step, dict):
  417. continue
  418. for kind in ('inputs', 'outputs'):
  419. for j, item in enumerate(step.get(kind) or []):
  420. if not isinstance(item, dict):
  421. continue
  422. if item.get('inferred'):
  423. continue
  424. v = item.get('value')
  425. if not isinstance(v, str) or not v.strip():
  426. continue
  427. if PLACEHOLDER_RE.match(v):
  428. continue # 占位 → check3 管
  429. if v.startswith('@quote'):
  430. continue # 未回填的 quote, resolve 后才比
  431. if re.search(r'原文(未提供|未给出|没有|无)', v):
  432. continue
  433. if _type_modality(item.get('type', '') or '', type_reg) == 'media':
  434. continue # 媒体描述不要求逐字
  435. vn = _norm(v)
  436. if len(vn) < 12:
  437. continue # 短标签不查 (无所谓缩写)
  438. run = _longest_run(vn, source_norm)
  439. ratio = run / len(vn)
  440. # 绝对护栏: 连续命中 ≥80 字 = 铁证级真引用 (没人会"凑巧"逐字打 80 字),
  441. # 哪怕整体比例因中途一处微小偏差掉到 80% 也放行, 只抓"短值缩写"。
  442. if run >= 80:
  443. continue
  444. if ratio < 0.80:
  445. hints.append(
  446. f"[{proc_label}] step[{i}].{kind}[{j}] value 最长连续命中原文仅 {run}/{len(vn)} 字"
  447. f"({ratio:.0%}) —— 整体不是一整段原文(疑似开头逐字后就缩写/改写); value={v[:40]!r}…; "
  448. f"用 @quote|起锚|止锚 + wf-patch --resolve-quotes 把整段原文逐字拽进来(原文那段提示词约 350 字)"
  449. )
  450. return hints
  451. # ===========================================================================
  452. # Side effect: record 新 type 到 type_suggestions.md
  453. # ===========================================================================
  454. def record_new_types(case_data: dict, suggestions_path: Path = SUGGESTIONS) -> list[str]:
  455. """把 case_data.type_registry 里的 case-specific type append 到 suggestions.
  456. 幂等: 同一 (type_name, case_id) 二元组只 append 一次. Dedup 靠 grep 现有文件,
  457. 抽 `(来自 case-{N})` + 类型名 二元组.
  458. Returns:
  459. 本次新写入的条目 list (空 list = 没新东西要 record).
  460. """
  461. # 合并所有 procedures.type_registry
  462. type_reg: dict = {}
  463. for p in case_data.get('procedures', []):
  464. type_reg.update(p.get('type_registry') or {})
  465. if not type_reg:
  466. return []
  467. leaves = load_type_leaves()
  468. case_id = case_data.get('case_id') or '?'
  469. text = suggestions_path.read_text(encoding='utf-8') if suggestions_path.exists() else ''
  470. # 已 record 过的 (type_name, case_id) — 用 regex 抓 markdown list entry
  471. existing = set(re.findall(
  472. r'^- `([^`]+)`:.*?\(来自 case-([^,)\s]+)', text, re.M
  473. ))
  474. new_lines: list[str] = []
  475. for tname, entry in type_reg.items():
  476. if not isinstance(entry, dict):
  477. continue
  478. if tname in leaves:
  479. continue # 已是字典叶子, 不是新 type (Agent 误把 stdlib type 加进 case_data.type_registry)
  480. if (tname, str(case_id)) in existing:
  481. continue
  482. ext = entry.get('extends', '?')
  483. desc = entry.get('desc') or '(无 desc)'
  484. new_lines.append(f'- `{tname}`: {desc} (来自 case-{case_id}, extends `{ext}`)')
  485. if new_lines:
  486. # 确保 suggestions 文件存在 (没有就建个空骨架)
  487. if not suggestions_path.exists():
  488. suggestions_path.write_text(
  489. '# Type 字典扩展建议\n\n## 累积条目\n\n', encoding='utf-8'
  490. )
  491. # append 末尾
  492. with suggestions_path.open('a', encoding='utf-8') as f:
  493. f.write('\n' + '\n'.join(new_lines) + '\n')
  494. return new_lines
  495. # ===========================================================================
  496. # main
  497. # ===========================================================================
  498. def main() -> None:
  499. ap = argparse.ArgumentParser(
  500. prog='lint-case.py',
  501. description='workflow 轻量 lint + 自动 record 新 type 到 type_suggestions.md',
  502. )
  503. ap.add_argument('--workflow', type=Path, required=True,
  504. help='workflow.json (含 procedures 数组). lint 内部读 procedures + type_registry')
  505. ap.add_argument('--case-id', type=str, default=None,
  506. help='record suggestions 用的 case_id. 不传就 fallback workflow.case_id 或 ?')
  507. ap.add_argument('--source', type=Path, default=None,
  508. help='原文 input/case-N.json. 传了才启用「章节覆盖」+「value 逐字」两条结构/值强制校验')
  509. ap.add_argument('--ocr', type=Path, default=None,
  510. help='配图 OCR 文本 (可选). 并入原文语料, 让逐字校验也认配图里的文字')
  511. ap.add_argument('--no-record', action='store_true',
  512. help='只校验, 不写 suggestions')
  513. args = ap.parse_args()
  514. target_path = args.workflow
  515. if not target_path.exists():
  516. print(f'lint-case: 文件不存在 {target_path}', file=sys.stderr)
  517. sys.exit(2)
  518. try:
  519. case_data = json.loads(target_path.read_text(encoding='utf-8'))
  520. except json.JSONDecodeError as e:
  521. print(f'lint-case: {target_path} 不是合法 JSON: {e}', file=sys.stderr)
  522. sys.exit(2)
  523. # workflow 模式: 注入 case_id (suggestions record 需要)
  524. if args.case_id is not None and 'case_id' not in case_data:
  525. try:
  526. case_data['case_id'] = int(args.case_id)
  527. except ValueError:
  528. case_data['case_id'] = args.case_id
  529. case_id = case_data.get('case_id', '?')
  530. print(f'[lint] case-{case_id} ({target_path.name})')
  531. # check: type 完整性提示
  532. hints = check_type_completeness(case_data)
  533. if hints:
  534. print(f' · type 完整性: {len(hints)} 个提示')
  535. for h in hints:
  536. print(f' - {h}')
  537. else:
  538. print(' · type 完整性: OK')
  539. # check: value / directive 自包含性 (引用占位)
  540. vhints = check_value_selfcontained(case_data)
  541. if vhints:
  542. print(f' · value 自包含: {len(vhints)} 个引用占位 (跑 wf-patch.py --resolve-passthrough 自动回填)')
  543. for h in vhints:
  544. print(f' - {h}')
  545. else:
  546. print(' · value 自包含: OK')
  547. # check: value 占位 / directive 缺失 (用 quote-source 回填真内容)
  548. chints = check_placeholder_content(case_data)
  549. if chints:
  550. print(f' · value/directive 真实性: {len(chints)} 处占位/缺失 (用 quote-source.py 从原文/配图 OCR 捞真内容回填)')
  551. for h in chints:
  552. print(f' - {h}')
  553. else:
  554. print(' · value/directive 真实性: OK')
  555. # check: 章节覆盖 + value 逐字 (结构/值强制 — 需 --source)
  556. if args.source is not None:
  557. source_raw, source_norm = _load_source_corpus(args.source, args.ocr)
  558. wf_norm = _norm(json.dumps(case_data, ensure_ascii=False))
  559. shints = check_section_coverage(case_data, source_raw, wf_norm)
  560. if shints:
  561. print(f' · 章节覆盖(结构强制): {len(shints)} 个章节疑似漏抽 —— 骨架要覆盖原文每个章节')
  562. for h in shints:
  563. print(f' - {h}')
  564. else:
  565. print(' · 章节覆盖(结构强制): OK (原文各章节都有对应工序)')
  566. bhints = check_value_verbatim(case_data, source_norm)
  567. if bhints:
  568. print(f' · value 逐字(值强制): {len(bhints)} 处疑似缩写/改写 —— 文本类 value 要逐字搬原文(用 @quote)')
  569. for h in bhints:
  570. print(f' - {h}')
  571. else:
  572. print(' · value 逐字(值强制): OK (文本类 value 都逐字命中原文)')
  573. else:
  574. print(' · 章节覆盖 + value 逐字: skipped (传 --source input/case-N.json [--ocr ocr.txt] 启用结构/值强制)')
  575. # side effect: record 新 type
  576. if not args.no_record:
  577. new_lines = record_new_types(case_data)
  578. if new_lines:
  579. print(f' · 已 record {len(new_lines)} 条新 type 到 {SUGGESTIONS.name}:')
  580. for ln in new_lines:
  581. print(f' {ln}')
  582. else:
  583. # 合并所有 procedure type_registry
  584. merged_reg: dict = {}
  585. for p in case_data.get('procedures', []):
  586. merged_reg.update(p.get('type_registry') or {})
  587. if not merged_reg:
  588. print(' · 无新 type 可 record (type_registry 为空 — 全部 type 命中字典叶子)')
  589. else:
  590. print(' · 无新 type 可 record (type_registry 里的项已全部 record 过)')
  591. # 不卡 exit code
  592. sys.exit(0)
  593. if __name__ == '__main__':
  594. main()