topic_build_pattern_tools.py 27 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494
  1. #!/usr/bin/env python3
  2. # -*- coding: utf-8 -*-
  3. """
  4. Pattern 数据查询工具
  5. 提供给 TopicBuildClaudeCodeAgent 使用的 pattern 挖掘结果查询函数。
  6. 所有工具均为只读操作,不修改数据库。
  7. 工具列表:
  8. - get_category_tree: 分类树快照(紧凑文本格式)
  9. - get_frequent_itemsets: 搜索频繁项集(按分类ID、维度模式筛选,分组返回)
  10. - get_itemset_detail: 单个项集详情
  11. - get_post_elements: 帖子结构化元素
  12. - search_elements: 按关键词搜索元素
  13. - get_element_category_chain: 元素名称列表批量反查分类链
  14. - get_category_detail: 分类节点详情
  15. - search_categories: 按关键词搜索分类
  16. - get_category_elements: 分类下的元素列表
  17. 【重要】所有作为 Agent tool 注册的函数,必须包含完整的 docstring 签名。
  18. """
  19. import json
  20. from typing import Any
  21. from agent import tool
  22. from examples.piaoquan_demand.topic_build_agent_context import TopicBuildAgentContext
  23. from log_capture import log
  24. import pattern_service
  25. def _log_tool_input(tool_name: str, params: dict):
  26. """工具调用前立即打印参数"""
  27. log(f"\n[FOLD:🔧 {tool_name}]")
  28. log(f"[FOLD:📥 调用参数]")
  29. log(json.dumps(params, ensure_ascii=False, indent=2))
  30. log(f"[/FOLD]")
  31. def _log_tool_output(tool_name: str, result: str) -> str:
  32. """工具执行完成后打印返回内容"""
  33. log(f"[FOLD:📤 返回内容]")
  34. log(result)
  35. log(f"[/FOLD]")
  36. log(f"[/FOLD]\n")
  37. return result
  38. # ============================================================================
  39. # 执行 & 配置 & 分类树
  40. # ============================================================================
  41. @tool(
  42. "获取二级品类分类树结构快照。分类树是所有数据的骨架——帖子中的元素按'实质/形式/意图'三个维度归类到树形分类节点中。"
  43. "\n\n返回紧凑文本格式,包含每个分类节点的名称、层级和元素数量。这是理解数据整体结构的起点。"
  44. "\n\n使用场景:"
  45. "\n- 启动时调用,了解数据涵盖哪些主题领域和维度"
  46. "\n- 按 source_type 筛选单个维度,聚焦分析"
  47. "\n- 从树中发现感兴趣的分类节点,获取其 ID 后用于 get_frequent_itemsets、get_category_detail 等"
  48. )
  49. def get_category_tree(source_type: str = None) -> str:
  50. """获取当前执行的分类树快照,返回紧凑文本格式(节省token)。
  51. Args:
  52. source_type: 按元素类型筛选:实质/形式/意图。不传则返回所有类型。
  53. Returns:
  54. 分类树的紧凑文本字符串。
  55. """
  56. execution_id = TopicBuildAgentContext.get_execution_id()
  57. params = {"execution_id": execution_id, "source_type": source_type}
  58. _log_tool_input("get_category_tree", params)
  59. result = pattern_service.get_category_tree_compact(execution_id, source_type=source_type)
  60. return _log_tool_output("get_category_tree", result)
  61. if __name__ == '__main__':
  62. TopicBuildAgentContext.set_execution_id(17)
  63. print(get_category_tree('实质'))
  64. # ============================================================================
  65. # 项集查询
  66. # ============================================================================
  67. @tool("获取频繁项集——即经常在同一帖子中共同出现的分类组合。结果按 dimension_mode/depth 分组返回,每组各返回 top_n 条。"
  68. "\n\n核心概念:每个频繁项集 = 一组高概率共现的分类节点。absolute_support = 同时出现在多少个帖子中。"
  69. "\n\n返回结构:groups 字典,key 为 'dimension_mode/target_depth',每组含 dimension_mode、target_depth、total(该组总数)、itemsets 列表。"
  70. "\n\n使用场景:"
  71. "\n- 全局探索:不传 category_ids,浏览支持度最高的共现模式"
  72. "\n- 定向查询:传入 category_ids=[A],获取所有包含分类A的项集,即A和哪些分类共现"
  73. "\n- 交叉共现:传入 category_ids=[A,B],获取同时包含A和B的项集,发现A+B还经常和什么一起出现"
  74. "\n- 渐进探索:先查 category_ids=[A] 发现B共现多,再查 category_ids=[A,B] 缩小范围"
  75. "\n- 维度聚焦:用 dimension_mode 筛选特定挖掘模式的结果"
  76. "\n- 帖子范围筛选:用 account_name/merge_leve2 限定帖子来源,筛选后重算 support"
  77. "\n\n提示:category_ids 需要分类节点ID,可先用 search_categories 按名称查ID。项集详情(匹配帖子等)通过 get_itemset_detail 获取。")
  78. def get_frequent_itemsets(
  79. top_n: int = 20,
  80. category_ids: list = None,
  81. dimension_mode: str = None,
  82. min_support: int = None,
  83. min_item_count: int = None,
  84. max_item_count: int = None,
  85. sort_by: str = "absolute_support",
  86. account_name=None,
  87. merge_leve2=None,
  88. ) -> str:
  89. """获取频繁项集——即经常在同一帖子中共同出现的分类组合,按 dimension_mode/depth 分组返回。
  90. 使用场景:
  91. - 全局探索: 不传 category_ids,浏览支持度最高的共现模式
  92. - 定向查询: category_ids=[A],获取包含分类A的所有项集,即A和哪些分类共现
  93. - 交叉共现: category_ids=[A,B],获取同时包含A和B的项集,发现A+B还经常和什么一起出现
  94. - 渐进探索: 先查 [A] 发现B共现多,再查 [A,B] 缩小范围,逐步聚焦
  95. - 维度聚焦: dimension_mode 筛选特定挖掘模式
  96. category_ids 需要分类节点ID,可先用 search_categories 按名称查找。
  97. 返回精简信息,详情(匹配帖子等)通过 get_itemset_detail 获取。
  98. Args:
  99. top_n: 返回前N个项集,默认20。
  100. category_ids: 分类节点ID列表(AND逻辑)。传入后返回同时包含所有这些分类的项集;不传则返回全局Top。
  101. dimension_mode: 挖掘维度模式筛选。full=点类型×元素类型(混合),substance_form_only=仅元素类型,point_type_only=仅点类型。
  102. min_support: 最低绝对支持度(共现帖子数)阈值。
  103. min_item_count: 项集最少包含的分类数量。
  104. max_item_count: 项集最多包含的分类数量。
  105. sort_by: 排序方式:absolute_support=共现帖子数(默认),support=相对支持度,item_count=分类数量。
  106. account_name: 按账号名筛选,支持单个字符串或列表(多个取OR)。
  107. merge_leve2: 按二级品类筛选,支持单个字符串或列表(多个取OR)。
  108. Returns:
  109. 按 dimension_mode/depth 分组的项集JSON,每组含 itemsets 列表。
  110. """
  111. execution_id = TopicBuildAgentContext.get_execution_id()
  112. params = {
  113. "execution_id": execution_id, "top_n": top_n,
  114. "category_ids": category_ids, "dimension_mode": dimension_mode,
  115. "min_support": min_support,
  116. "min_item_count": min_item_count, "max_item_count": max_item_count,
  117. "sort_by": sort_by,
  118. "account_name": account_name, "merge_leve2": merge_leve2,
  119. }
  120. _log_tool_input("get_frequent_itemsets", params)
  121. data = pattern_service.search_top_itemsets(
  122. execution_id=execution_id, top_n=top_n,
  123. category_ids=category_ids, dimension_mode=dimension_mode,
  124. min_support=min_support,
  125. min_item_count=min_item_count, max_item_count=max_item_count,
  126. sort_by=sort_by,
  127. account_name=account_name, merge_leve2=merge_leve2,
  128. )
  129. result = json.dumps(data, ensure_ascii=False, indent=2)
  130. return _log_tool_output("get_frequent_itemsets", result)
  131. @tool("获取一个或多个频繁项集的完整详情。相比 get_frequent_itemsets 的精简列表,这里返回每个项集的所有信息。"
  132. "\n\n返回内容:每个项集的 dimension_mode(维度模式)、target_depth(挖掘深度)、items 完整结构(含分类路径、元素名称、维度、点类型)、post_ids(匹配的帖子ID列表)、支持度等。"
  133. "\n\n使用场景:"
  134. "\n- 从 get_frequent_itemsets 中发现有价值的项集后,批量查看其匹配了哪些帖子"
  135. "\n- 获取 post_ids 后可传给 get_post_elements 查看帖子的具体内容"
  136. "\n- 支持传入多个 itemset_id,一次获取多个项集的详情,减少调用次数")
  137. def get_itemset_detail(itemset_ids) -> str:
  138. """获取一个或多个频繁项集的详情,包括每个项集的维度模式、depth、items 结构(含分类路径、元素名称、维度、点类型)和匹配的帖子ID列表。
  139. Args:
  140. itemset_ids: 项集ID,单个整数或整数列表。
  141. Returns:
  142. 项集详情列表的JSON字符串,每项含 id, dimension_mode, target_depth, items, post_ids, absolute_support。
  143. """
  144. if isinstance(itemset_ids, int):
  145. itemset_ids = [itemset_ids]
  146. params = {"itemset_ids": itemset_ids}
  147. _log_tool_input("get_itemset_detail", params)
  148. data = pattern_service.get_itemset_posts(itemset_ids)
  149. if not data:
  150. return _log_tool_output("get_itemset_detail", f"未找到 itemset_ids={itemset_ids} 的项集")
  151. result = json.dumps(data, ensure_ascii=False, indent=2)
  152. return _log_tool_output("get_itemset_detail", result)
  153. # ============================================================================
  154. # 帖子 & 元素
  155. # ============================================================================
  156. @tool("获取指定帖子的结构化元素数据。每个帖子的内容被拆解为多个'选题点',每个点下有实质/形式/意图三个维度的元素。"
  157. "\n\n返回结构:按帖子分组 → 按点类型分组 → 每个点含 point_text(点的原文)和 elements(三维度元素列表)。"
  158. "\n\n使用场景:"
  159. "\n- 从 get_itemset_detail 获取 post_ids 后,深入查看这些帖子的具体内容结构"
  160. "\n- 验证某个共现模式在帖子中的实际表现"
  161. "\n- 发现帖子中未被分类捕捉到的内容细节")
  162. def get_post_elements(post_ids: list) -> str:
  163. """获取指定帖子的结构化元素数据。按帖子分组,每个帖子按 点类型→元素类型 组织。用于深入了解某个项集匹配的帖子具体内容。
  164. Args:
  165. post_ids: 帖子ID列表(建议每次不超过10个)。
  166. Returns:
  167. 帖子元素数据的JSON字符串,结构: {post_id: {point_type: [{point_text, elements: {实质, 形式, 意图}}]}}。
  168. """
  169. execution_id = TopicBuildAgentContext.get_execution_id()
  170. params = {"execution_id": execution_id, "post_ids": post_ids}
  171. _log_tool_input("get_post_elements", params)
  172. if len(post_ids) > 20:
  173. return _log_tool_output("get_post_elements",
  174. f"错误: post_ids 数量过多({len(post_ids)}),请每次不超过20个")
  175. data = pattern_service.get_post_elements(execution_id, post_ids)
  176. result = json.dumps(data, ensure_ascii=False, indent=2)
  177. return _log_tool_output("get_post_elements", result)
  178. @tool("按名称关键词搜索元素。元素是帖子中的具体内容实体(如'水煮鱼'、'短视频'),归属于分类树的叶子节点下。"
  179. "\n\n返回去重聚合结果:每个元素附带 point_types(该元素出现在哪些点类型中,如['灵感点','关键点'])、"
  180. "所属分类(category_id、category_path)、出现次数和帖子数。"
  181. "\n\n使用场景:"
  182. "\n- 从某个关键词出发,找到相关元素及其分类归属"
  183. "\n- 通过 point_types 了解元素在灵感点/目的点/关键点中的分布"
  184. "\n- 获取元素名称后,传给 get_element_co_occurrences 查共现关系"
  185. "\n- 通过元素的 category_id 桥接到 get_frequent_itemsets 做分类级分析")
  186. def search_elements(keyword: str, element_type: str = None, limit: int = 50,
  187. account_name=None, merge_leve2=None) -> str:
  188. """按名称关键词搜索元素。返回去重聚合后的元素列表,每个元素附带其所属分类信息(category_id、category_path)、出现次数和帖子数。
  189. 使用场景:
  190. - 从某个关键词出发,找到相关元素及其分类归属
  191. - 了解某个元素在数据中出现的频率
  192. Args:
  193. keyword: 搜索关键词(模糊匹配元素名称)。
  194. element_type: 按维度筛选:实质/形式/意图。不传则搜索所有维度。
  195. limit: 最多返回数量,默认50。
  196. account_name: 按账号名筛选,支持单个字符串或列表(多个取OR)。
  197. merge_leve2: 按二级品类筛选,支持单个字符串或列表(多个取OR)。
  198. Returns:
  199. 元素列表的JSON字符串,每个元素含 name、element_type、category_id、category_path、occurrence_count、post_count。
  200. """
  201. execution_id = TopicBuildAgentContext.get_execution_id()
  202. params = {"execution_id": execution_id, "keyword": keyword,
  203. "element_type": element_type, "limit": limit,
  204. "account_name": account_name, "merge_leve2": merge_leve2}
  205. _log_tool_input("search_elements", params)
  206. data = pattern_service.search_elements(execution_id, keyword, element_type=element_type, limit=limit,
  207. account_name=account_name, merge_leve2=merge_leve2)
  208. result = json.dumps({
  209. "keyword": keyword,
  210. "count": len(data),
  211. "elements": data,
  212. }, ensure_ascii=False, indent=2)
  213. return _log_tool_output("search_elements", result)
  214. @tool("从元素名称列表批量反查各自所属的完整分类链。每个元素可能归属于多个分类节点,每项返回每个归属分类从根到叶的完整祖先路径。"
  215. "\n\n使用场景:"
  216. "\n- 知道多个元素名称,想了解它们在分类树中的位置"
  217. "\n- 从元素出发向上回溯分类层级,获取 category_id 用于 get_frequent_itemsets"
  218. "\n- 理解同一元素在不同维度下的分类归属差异")
  219. def get_element_category_chain(element_names: list[str], element_type: str = None) -> str:
  220. """从元素名称批量反查所属分类链。对每个名称返回其出现在哪些分类下,以及每个分类的完整祖先路径(从根到叶)。
  221. 使用场景:
  222. - 知道多个元素名称,想了解它们在分类树中的位置
  223. - 从元素出发,向上回溯分类层级,为泛化推理提供路径
  224. Args:
  225. element_names: 元素名称列表(精确匹配,顺序与返回 results 一一对应)。
  226. element_type: 按维度筛选:实质/形式/意图。不传则查所有维度(对所有名称共用)。
  227. Returns:
  228. JSON 字符串。含 query_count 与 results,每项含 element_name、category_chains(含 category_id、category_path、ancestors 等)。
  229. """
  230. execution_id = TopicBuildAgentContext.get_execution_id()
  231. params = {"execution_id": execution_id, "element_names": element_names,
  232. "element_type": element_type}
  233. _log_tool_input("get_element_category_chain", params)
  234. if not element_names:
  235. return _log_tool_output("get_element_category_chain", "错误: element_names 不能为空列表")
  236. if not isinstance(element_names, list):
  237. return _log_tool_output(
  238. "get_element_category_chain",
  239. f"错误: element_names 必须为列表,当前类型: {type(element_names).__name__}",
  240. )
  241. stripped: list[str] = []
  242. for i, n in enumerate(element_names):
  243. if n is None or (isinstance(n, str) and not n.strip()):
  244. return _log_tool_output(
  245. "get_element_category_chain",
  246. f"错误: element_names[{i}] 不能为空",
  247. )
  248. stripped.append(str(n).strip())
  249. results = []
  250. for name in stripped:
  251. data = pattern_service.get_element_category_chain(
  252. execution_id, name, element_type=element_type
  253. )
  254. results.append({"element_name": name, "category_chains": data})
  255. out = {
  256. "element_type": element_type,
  257. "query_count": len(stripped),
  258. "results": results,
  259. }
  260. result = json.dumps(out, ensure_ascii=False, indent=2)
  261. return _log_tool_output("get_element_category_chain", result)
  262. # ============================================================================
  263. # 分类导航
  264. # ============================================================================
  265. @tool("获取分类节点的完整上下文信息,用于在分类树中导航和理解某个分类的位置。"
  266. "\n\n返回内容:自身信息(名称、层级、元素数)、祖先链(从根到当前的路径)、直接子节点、同级兄弟节点、"
  267. "该分类下的元素列表(Top100,每个元素含 point_types 列表表示出现在哪些点类型中)。"
  268. "\n\n使用场景:"
  269. "\n- 从 get_frequent_itemsets 中发现某个分类后,了解它的层级上下文"
  270. "\n- 向上泛化:查看祖先节点,理解更宏观的领域"
  271. "\n- 向下细化:查看子节点,找到更具体的方向"
  272. "\n- 平行探索:查看兄弟节点,发现同级别的其他内容领域"
  273. "\n- 获取子节点的 category_id 后可传给 get_frequent_itemsets 做进一步分析")
  274. def get_category_detail(category_id: int) -> str:
  275. """获取分类节点的完整上下文。包括: 自身信息、祖先链(从根到当前节点的路径)、直接子节点列表、同级兄弟节点列表、该分类下的元素列表(去重聚合Top100)。
  276. 使用场景:
  277. - 查看某个分类节点的全貌
  278. - 从分类出发向上回溯(祖先)或向下展开(子节点)
  279. - 查看同级兄弟节点,发现平行的内容领域
  280. Args:
  281. category_id: 分类节点ID(TopicPatternCategory.id)。
  282. Returns:
  283. 分类详情的JSON字符串,含 category、ancestors、children、siblings、elements。
  284. """
  285. execution_id = TopicBuildAgentContext.get_execution_id()
  286. params = {"execution_id": execution_id, "category_id": category_id}
  287. _log_tool_input("get_category_detail", params)
  288. data = pattern_service.get_category_detail_with_context(execution_id, category_id)
  289. if not data:
  290. return _log_tool_output("get_category_detail", f"未找到 category_id={category_id}")
  291. result = json.dumps(data, ensure_ascii=False, indent=2)
  292. return _log_tool_output("get_category_detail", result)
  293. @tool("按名称关键词搜索分类节点。分类节点是分类树上的一个层级(如'中餐'),区别于具体元素(如'水煮鱼')。"
  294. "\n\n返回匹配的分类列表,含 id、name、path、level、element_count、point_types(该分类下元素涉及的点类型列表,如['灵感点','关键点'])。"
  295. "\n\n使用场景:"
  296. "\n- 获取分类的 category_id,用于 get_frequent_itemsets(category_ids=[...]) 查共现"
  297. "\n- 通过 point_types 了解分类在灵感点/目的点/关键点中的分布"
  298. "\n- 获取 category_id 后传给 get_category_detail 查看层级上下文"
  299. "\n- 作为 get_frequent_itemsets 的前置步骤:先按名称找到 ID,再查频繁项集")
  300. def search_categories(keyword: str, source_type: str = None) -> str:
  301. """按名称关键词搜索分类节点。返回匹配的分类列表,含 id、name、path、level、element_count 等。
  302. 使用场景:
  303. - 用关键词定位分类节点,然后用 get_category_detail 或 get_frequent_itemsets_by_category 进一步探索
  304. Args:
  305. keyword: 搜索关键词(模糊匹配分类名称)。
  306. source_type: 按维度筛选:实质/形式/意图。不传则搜索所有维度。
  307. Returns:
  308. 分类列表的JSON字符串。
  309. """
  310. execution_id = TopicBuildAgentContext.get_execution_id()
  311. params = {"execution_id": execution_id, "keyword": keyword, "source_type": source_type}
  312. _log_tool_input("search_categories", params)
  313. data = pattern_service.search_categories(execution_id, keyword, source_type=source_type)
  314. result = json.dumps({
  315. "keyword": keyword,
  316. "count": len(data),
  317. "categories": data,
  318. }, ensure_ascii=False, indent=2)
  319. return _log_tool_output("search_categories", result)
  320. @tool("获取某个分类节点下的具体元素列表。分类是抽象方向(如'中餐'),元素是具体实例(如'水煮鱼'、'麻婆豆腐')。"
  321. "\n\n返回按名称去重聚合的元素列表,按出现次数降序,含 name、element_type、point_types(该元素出现在哪些点类型中)、occurrence_count、post_count。"
  322. "\n\n使用场景:"
  323. "\n- 从分类节点下钻到具体元素,了解该分类包含哪些内容"
  324. "\n- 通过 point_types 了解元素在灵感点/目的点/关键点中的分布"
  325. "\n- 获取元素名称后,传给 get_element_co_occurrences 查元素级共现"
  326. "\n- 从频繁项集的分类出发,落地到可用于选题的具体元素")
  327. def get_category_elements(category_id: int, account_name=None, merge_leve2=None) -> str:
  328. """获取某个分类节点下的元素列表(按名称去重聚合),按出现次数降序。
  329. Args:
  330. category_id: 分类节点ID。
  331. account_name: 按账号名筛选,支持单个字符串或列表(多个取OR)。
  332. merge_leve2: 按二级品类筛选,支持单个字符串或列表(多个取OR)。
  333. Returns:
  334. 元素列表的JSON字符串,每个元素含 name、element_type、occurrence_count、post_count。
  335. """
  336. execution_id = TopicBuildAgentContext.get_execution_id()
  337. params = {"category_id": category_id, "account_name": account_name, "merge_leve2": merge_leve2}
  338. _log_tool_input("get_category_elements", params)
  339. data = pattern_service.get_category_elements(category_id, execution_id=execution_id,
  340. account_name=account_name, merge_leve2=merge_leve2)
  341. result = json.dumps({
  342. "category_id": category_id,
  343. "element_count": len(data),
  344. "elements": data,
  345. }, ensure_ascii=False, indent=2)
  346. return _log_tool_output("get_category_elements", result)
  347. # ============================================================================
  348. # 共现查询
  349. # ============================================================================
  350. @tool("查询分类级共现关系——找到同时包含指定分类下元素的帖子,统计这些帖子中其他分类的出现频率。"
  351. "\n\n核心概念:与 get_frequent_itemsets 不同,此工具是实时从帖子数据中计算共现,"
  352. "不依赖预计算的频繁项集,因此可以灵活组合任意分类进行探索。"
  353. "\n\n使用场景:"
  354. "\n- 单分类探索:category_ids=[123],发现经常和该分类一起出现的其他分类"
  355. "\n- 多分类交叉:category_ids=[123,456],发现同时涉及这两个分类的帖子中还包含什么分类"
  356. "\n- 渐进聚焦:先查单个分类,发现高频共现后叠加查询缩小范围"
  357. "\n- 验证频繁项集:将 get_frequent_itemsets 中发现的模式用此工具做更细粒度的验证"
  358. "\n\n提示:需要分类节点ID,可先用 search_categories 按名称查找。")
  359. def get_category_co_occurrences(category_ids: list, top_n: int = 30,
  360. account_name=None, merge_leve2=None) -> str:
  361. """查询多个分类的共现关系。找到同时包含所有指定分类下元素的帖子,返回这些帖子中其他分类的出现频率。
  362. 支持叠加多分类,传入越多分类,结果越精确(交集缩小)。
  363. Args:
  364. category_ids: 分类节点ID列表(AND逻辑)。传入多个时取帖子交集。
  365. top_n: 返回共现频率最高的前N个分类,默认30。
  366. account_name: 按账号名筛选帖子范围,支持单个字符串或列表(多个取OR)。
  367. merge_leve2: 按二级品类筛选帖子范围,支持单个字符串或列表(多个取OR)。
  368. Returns:
  369. 共现分类列表的JSON字符串,含 matched_post_count(交集帖子数)和 co_categories(共现分类排名)。
  370. """
  371. execution_id = TopicBuildAgentContext.get_execution_id()
  372. params = {"execution_id": execution_id, "category_ids": category_ids, "top_n": top_n,
  373. "account_name": account_name, "merge_leve2": merge_leve2}
  374. _log_tool_input("get_category_co_occurrences", params)
  375. if not category_ids:
  376. return _log_tool_output("get_category_co_occurrences", "错误: category_ids 不能为空")
  377. data = pattern_service.get_category_co_occurrences(
  378. execution_id=execution_id, category_ids=category_ids, top_n=top_n,
  379. account_name=account_name, merge_leve2=merge_leve2,
  380. )
  381. result = json.dumps(data, ensure_ascii=False, indent=2)
  382. return _log_tool_output("get_category_co_occurrences", result)
  383. @tool("查询元素级共现关系——找到同时包含指定元素的帖子,统计这些帖子中其他元素的出现频率。"
  384. "\n\n与 get_category_co_occurrences(分类级共现)互补:此工具在具体元素粒度上分析共现,更适合落地到选题细节。"
  385. "\n\n返回的每个共现元素含 point_types(该元素出现在哪些点类型中,如['灵感点','关键点'])。"
  386. "\n\n使用场景:"
  387. "\n- 单元素探索:element_names=['猫咪'],发现经常和猫咪一起出现的其他元素"
  388. "\n- 多元素交叉:element_names=['猫咪','拟人化'],发现同时涉及这两个元素的帖子还包含什么"
  389. "\n- 渐进聚焦:先查单个元素,发现高频共现后叠加查询缩小范围"
  390. "\n\n提示:element_names 需要精确匹配,可先用 search_elements 按关键词查找确切名称。")
  391. def get_element_co_occurrences(element_names: list, top_n: int = 30,
  392. account_name=None, merge_leve2=None) -> str:
  393. """查询多个元素的共现关系。找到同时包含所有指定元素的帖子,返回这些帖子中其他元素的出现频率。
  394. 支持叠加多元素,传入越多元素,结果越精确(交集缩小)。
  395. Args:
  396. element_names: 元素名称列表(精确匹配)。传入多个时取帖子交集。
  397. top_n: 返回共现频率最高的前N个元素,默认30。
  398. account_name: 按账号名筛选帖子范围,支持单个字符串或列表(多个取OR)。
  399. merge_leve2: 按二级品类筛选帖子范围,支持单个字符串或列表(多个取OR)。
  400. Returns:
  401. 共现元素列表的JSON字符串,含 matched_post_count(交集帖子数)和 co_elements(共现元素排名)。
  402. """
  403. execution_id = TopicBuildAgentContext.get_execution_id()
  404. params = {"execution_id": execution_id, "element_names": element_names, "top_n": top_n,
  405. "account_name": account_name, "merge_leve2": merge_leve2}
  406. _log_tool_input("get_element_co_occurrences", params)
  407. if not element_names:
  408. return _log_tool_output("get_element_co_occurrences", "错误: element_names 不能为空")
  409. data = pattern_service.get_element_co_occurrences(
  410. execution_id=execution_id, element_names=element_names, top_n=top_n,
  411. account_name=account_name, merge_leve2=merge_leve2,
  412. )
  413. result = json.dumps(data, ensure_ascii=False, indent=2)
  414. return _log_tool_output("get_element_co_occurrences", result)
  415. if __name__ == '__main__':
  416. TopicBuildAgentContext.set_execution_id(3)
  417. get_category_co_occurrences(category_ids=[81])