topic_build_pattern_tools.py 26 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461
  1. #!/usr/bin/env python3
  2. # -*- coding: utf-8 -*-
  3. """
  4. Pattern 数据查询工具
  5. 提供给 TopicBuildClaudeCodeAgent 使用的 pattern 挖掘结果查询函数。
  6. 所有工具均为只读操作,不修改数据库。
  7. 工具列表:
  8. - get_category_tree: 分类树快照(紧凑文本格式)
  9. - get_frequent_itemsets: 搜索频繁项集(按分类ID、维度模式筛选,分组返回)
  10. - get_itemset_detail: 单个项集详情
  11. - get_post_elements: 帖子结构化元素
  12. - search_elements: 按关键词搜索元素
  13. - get_element_category_chain: 元素反查分类链
  14. - get_category_detail: 分类节点详情
  15. - search_categories: 按关键词搜索分类
  16. - get_category_elements: 分类下的元素列表
  17. 【重要】所有作为 Agent tool 注册的函数,必须包含完整的 docstring 签名。
  18. """
  19. import json
  20. from typing import Any
  21. from agent import tool
  22. from examples.piaoquan_needs.topic_build_agent_context import TopicBuildAgentContext
  23. from log_capture import log
  24. import pattern_service
  25. def _log_tool_input(tool_name: str, params: dict):
  26. """工具调用前立即打印参数"""
  27. log(f"\n[FOLD:🔧 {tool_name}]")
  28. log(f"[FOLD:📥 调用参数]")
  29. log(json.dumps(params, ensure_ascii=False, indent=2))
  30. log(f"[/FOLD]")
  31. def _log_tool_output(tool_name: str, result: str) -> str:
  32. """工具执行完成后打印返回内容"""
  33. log(f"[FOLD:📤 返回内容]")
  34. log(result)
  35. log(f"[/FOLD]")
  36. log(f"[/FOLD]\n")
  37. return result
  38. # ============================================================================
  39. # 执行 & 配置 & 分类树
  40. # ============================================================================
  41. @tool(
  42. "获取分类树结构快照。分类树是所有数据的骨架——帖子中的元素按'实质/形式/意图'三个维度归类到树形分类节点中。"
  43. "\n\n返回紧凑文本格式,包含每个分类节点的名称、层级和元素数量。这是理解数据整体结构的起点。"
  44. "\n\n使用场景:"
  45. "\n- 启动时调用,了解数据涵盖哪些主题领域和维度"
  46. "\n- 按 source_type 筛选单个维度,聚焦分析"
  47. "\n- 从树中发现感兴趣的分类节点,获取其 ID 后用于 get_frequent_itemsets、get_category_detail 等"
  48. )
  49. def get_category_tree(source_type: str = None) -> str:
  50. """获取当前执行的分类树快照,返回紧凑文本格式(节省token)。
  51. Args:
  52. source_type: 按元素类型筛选:实质/形式/意图。不传则返回所有类型。
  53. Returns:
  54. 分类树的紧凑文本字符串。
  55. """
  56. execution_id = TopicBuildAgentContext.get_execution_id()
  57. params = {"execution_id": execution_id, "source_type": source_type}
  58. _log_tool_input("get_category_tree", params)
  59. result = pattern_service.get_category_tree_compact(execution_id, source_type=source_type)
  60. return _log_tool_output("get_category_tree", result)
  61. # ============================================================================
  62. # 项集查询
  63. # ============================================================================
  64. @tool("获取频繁项集——即经常在同一帖子中共同出现的分类组合。结果按 dimension_mode/depth 分组返回,每组各返回 top_n 条。"
  65. "\n\n核心概念:每个频繁项集 = 一组高概率共现的分类节点。absolute_support = 同时出现在多少个帖子中。"
  66. "\n\n返回结构:groups 字典,key 为 'dimension_mode/target_depth',每组含 dimension_mode、target_depth、total(该组总数)、itemsets 列表。"
  67. "\n\n使用场景:"
  68. "\n- 全局探索:不传 category_ids,浏览支持度最高的共现模式"
  69. "\n- 定向查询:传入 category_ids=[A],获取所有包含分类A的项集,即A和哪些分类共现"
  70. "\n- 交叉共现:传入 category_ids=[A,B],获取同时包含A和B的项集,发现A+B还经常和什么一起出现"
  71. "\n- 渐进探索:先查 category_ids=[A] 发现B共现多,再查 category_ids=[A,B] 缩小范围"
  72. "\n- 维度聚焦:用 dimension_mode 筛选特定挖掘模式的结果"
  73. "\n- 帖子范围筛选:用 account_name/merge_leve2 限定帖子来源,筛选后重算 support"
  74. "\n\n提示:category_ids 需要分类节点ID,可先用 search_categories 按名称查ID。项集详情(匹配帖子等)通过 get_itemset_detail 获取。")
  75. def get_frequent_itemsets(
  76. top_n: int = 20,
  77. category_ids: list = None,
  78. dimension_mode: str = None,
  79. min_support: int = None,
  80. min_item_count: int = None,
  81. max_item_count: int = None,
  82. sort_by: str = "absolute_support",
  83. account_name=None,
  84. merge_leve2=None,
  85. ) -> str:
  86. """获取频繁项集——即经常在同一帖子中共同出现的分类组合,按 dimension_mode/depth 分组返回。
  87. 使用场景:
  88. - 全局探索: 不传 category_ids,浏览支持度最高的共现模式
  89. - 定向查询: category_ids=[A],获取包含分类A的所有项集,即A和哪些分类共现
  90. - 交叉共现: category_ids=[A,B],获取同时包含A和B的项集,发现A+B还经常和什么一起出现
  91. - 渐进探索: 先查 [A] 发现B共现多,再查 [A,B] 缩小范围,逐步聚焦
  92. - 维度聚焦: dimension_mode 筛选特定挖掘模式
  93. category_ids 需要分类节点ID,可先用 search_categories 按名称查找。
  94. 返回精简信息,详情(匹配帖子等)通过 get_itemset_detail 获取。
  95. Args:
  96. top_n: 返回前N个项集,默认20。
  97. category_ids: 分类节点ID列表(AND逻辑)。传入后返回同时包含所有这些分类的项集;不传则返回全局Top。
  98. dimension_mode: 挖掘维度模式筛选。full=点类型×元素类型(混合),substance_form_only=仅元素类型,point_type_only=仅点类型。
  99. min_support: 最低绝对支持度(共现帖子数)阈值。
  100. min_item_count: 项集最少包含的分类数量。
  101. max_item_count: 项集最多包含的分类数量。
  102. sort_by: 排序方式:absolute_support=共现帖子数(默认),support=相对支持度,item_count=分类数量。
  103. account_name: 按账号名筛选,支持单个字符串或列表(多个取OR)。
  104. merge_leve2: 按二级品类筛选,支持单个字符串或列表(多个取OR)。
  105. Returns:
  106. 按 dimension_mode/depth 分组的项集JSON,每组含 itemsets 列表。
  107. """
  108. execution_id = TopicBuildAgentContext.get_execution_id()
  109. params = {
  110. "execution_id": execution_id, "top_n": top_n,
  111. "category_ids": category_ids, "dimension_mode": dimension_mode,
  112. "min_support": min_support,
  113. "min_item_count": min_item_count, "max_item_count": max_item_count,
  114. "sort_by": sort_by,
  115. "account_name": account_name, "merge_leve2": merge_leve2,
  116. }
  117. _log_tool_input("get_frequent_itemsets", params)
  118. data = pattern_service.search_top_itemsets(
  119. execution_id=execution_id, top_n=top_n,
  120. category_ids=category_ids, dimension_mode=dimension_mode,
  121. min_support=min_support,
  122. min_item_count=min_item_count, max_item_count=max_item_count,
  123. sort_by=sort_by,
  124. account_name=account_name, merge_leve2=merge_leve2,
  125. )
  126. result = json.dumps(data, ensure_ascii=False, indent=2)
  127. return _log_tool_output("get_frequent_itemsets", result)
  128. @tool("获取一个或多个频繁项集的完整详情。相比 get_frequent_itemsets 的精简列表,这里返回每个项集的所有信息。"
  129. "\n\n返回内容:每个项集的 dimension_mode(维度模式)、target_depth(挖掘深度)、items 完整结构(含分类路径、元素名称、维度、点类型)、post_ids(匹配的帖子ID列表)、支持度等。"
  130. "\n\n使用场景:"
  131. "\n- 从 get_frequent_itemsets 中发现有价值的项集后,批量查看其匹配了哪些帖子"
  132. "\n- 获取 post_ids 后可传给 get_post_elements 查看帖子的具体内容"
  133. "\n- 支持传入多个 itemset_id,一次获取多个项集的详情,减少调用次数")
  134. def get_itemset_detail(itemset_ids) -> str:
  135. """获取一个或多个频繁项集的详情,包括每个项集的维度模式、depth、items 结构(含分类路径、元素名称、维度、点类型)和匹配的帖子ID列表。
  136. Args:
  137. itemset_ids: 项集ID,单个整数或整数列表。
  138. Returns:
  139. 项集详情列表的JSON字符串,每项含 id, dimension_mode, target_depth, items, post_ids, absolute_support。
  140. """
  141. if isinstance(itemset_ids, int):
  142. itemset_ids = [itemset_ids]
  143. params = {"itemset_ids": itemset_ids}
  144. _log_tool_input("get_itemset_detail", params)
  145. data = pattern_service.get_itemset_posts(itemset_ids)
  146. if not data:
  147. return _log_tool_output("get_itemset_detail", f"未找到 itemset_ids={itemset_ids} 的项集")
  148. result = json.dumps(data, ensure_ascii=False, indent=2)
  149. return _log_tool_output("get_itemset_detail", result)
  150. # ============================================================================
  151. # 帖子 & 元素
  152. # ============================================================================
  153. @tool("获取指定帖子的结构化元素数据。每个帖子的内容被拆解为多个'选题点',每个点下有实质/形式/意图三个维度的元素。"
  154. "\n\n返回结构:按帖子分组 → 按点类型分组 → 每个点含 point_text(点的原文)和 elements(三维度元素列表)。"
  155. "\n\n使用场景:"
  156. "\n- 从 get_itemset_detail 获取 post_ids 后,深入查看这些帖子的具体内容结构"
  157. "\n- 验证某个共现模式在帖子中的实际表现"
  158. "\n- 发现帖子中未被分类捕捉到的内容细节")
  159. def get_post_elements(post_ids: list) -> str:
  160. """获取指定帖子的结构化元素数据。按帖子分组,每个帖子按 点类型→元素类型 组织。用于深入了解某个项集匹配的帖子具体内容。
  161. Args:
  162. post_ids: 帖子ID列表(建议每次不超过10个)。
  163. Returns:
  164. 帖子元素数据的JSON字符串,结构: {post_id: {point_type: [{point_text, elements: {实质, 形式, 意图}}]}}。
  165. """
  166. execution_id = TopicBuildAgentContext.get_execution_id()
  167. params = {"execution_id": execution_id, "post_ids": post_ids}
  168. _log_tool_input("get_post_elements", params)
  169. if len(post_ids) > 20:
  170. return _log_tool_output("get_post_elements",
  171. f"错误: post_ids 数量过多({len(post_ids)}),请每次不超过20个")
  172. data = pattern_service.get_post_elements(execution_id, post_ids)
  173. result = json.dumps(data, ensure_ascii=False, indent=2)
  174. return _log_tool_output("get_post_elements", result)
  175. @tool("按名称关键词搜索元素。元素是帖子中的具体内容实体(如'水煮鱼'、'短视频'),归属于分类树的叶子节点下。"
  176. "\n\n返回去重聚合结果:每个元素附带 point_types(该元素出现在哪些点类型中,如['灵感点','关键点'])、"
  177. "所属分类(category_id、category_path)、出现次数和帖子数。"
  178. "\n\n使用场景:"
  179. "\n- 从某个关键词出发,找到相关元素及其分类归属"
  180. "\n- 通过 point_types 了解元素在灵感点/目的点/关键点中的分布"
  181. "\n- 获取元素名称后,传给 get_element_co_occurrences 查共现关系"
  182. "\n- 通过元素的 category_id 桥接到 get_frequent_itemsets 做分类级分析")
  183. def search_elements(keyword: str, element_type: str = None, limit: int = 50,
  184. account_name=None, merge_leve2=None) -> str:
  185. """按名称关键词搜索元素。返回去重聚合后的元素列表,每个元素附带其所属分类信息(category_id、category_path)、出现次数和帖子数。
  186. 使用场景:
  187. - 从某个关键词出发,找到相关元素及其分类归属
  188. - 了解某个元素在数据中出现的频率
  189. Args:
  190. keyword: 搜索关键词(模糊匹配元素名称)。
  191. element_type: 按维度筛选:实质/形式/意图。不传则搜索所有维度。
  192. limit: 最多返回数量,默认50。
  193. account_name: 按账号名筛选,支持单个字符串或列表(多个取OR)。
  194. merge_leve2: 按二级品类筛选,支持单个字符串或列表(多个取OR)。
  195. Returns:
  196. 元素列表的JSON字符串,每个元素含 name、element_type、category_id、category_path、occurrence_count、post_count。
  197. """
  198. execution_id = TopicBuildAgentContext.get_execution_id()
  199. params = {"execution_id": execution_id, "keyword": keyword,
  200. "element_type": element_type, "limit": limit,
  201. "account_name": account_name, "merge_leve2": merge_leve2}
  202. _log_tool_input("search_elements", params)
  203. data = pattern_service.search_elements(execution_id, keyword, element_type=element_type, limit=limit,
  204. account_name=account_name, merge_leve2=merge_leve2)
  205. result = json.dumps({
  206. "keyword": keyword,
  207. "count": len(data),
  208. "elements": data,
  209. }, ensure_ascii=False, indent=2)
  210. return _log_tool_output("search_elements", result)
  211. @tool("从元素名称反查其所属的完整分类链。一个元素可能归属于多个分类节点,此工具返回每个归属分类从根到叶的完整祖先路径。"
  212. "\n\n使用场景:"
  213. "\n- 知道一个元素名称,想了解它在分类树中的位置"
  214. "\n- 从元素出发向上回溯分类层级,获取 category_id 用于 get_frequent_itemsets"
  215. "\n- 理解同一元素在不同维度下的分类归属差异")
  216. def get_element_category_chain(element_name: str, element_type: str = None) -> str:
  217. """从元素名称反查其所属分类链。返回该元素出现在哪些分类下,以及每个分类的完整祖先路径(从根到叶)。
  218. 使用场景:
  219. - 知道一个元素名称,想了解它在分类树中的位置
  220. - 从元素出发,向上回溯分类层级,为泛化推理提供路径
  221. Args:
  222. element_name: 元素名称(精确匹配)。
  223. element_type: 按维度筛选:实质/形式/意图。不传则查所有维度。
  224. Returns:
  225. 分类链列表的JSON字符串,每条含 category_id、category_path、ancestors 链(从根到叶)。
  226. """
  227. execution_id = TopicBuildAgentContext.get_execution_id()
  228. params = {"execution_id": execution_id, "element_name": element_name,
  229. "element_type": element_type}
  230. _log_tool_input("get_element_category_chain", params)
  231. data = pattern_service.get_element_category_chain(execution_id, element_name, element_type=element_type)
  232. result = json.dumps({
  233. "element_name": element_name,
  234. "category_chains": data,
  235. }, ensure_ascii=False, indent=2)
  236. return _log_tool_output("get_element_category_chain", result)
  237. # ============================================================================
  238. # 分类导航
  239. # ============================================================================
  240. @tool("获取分类节点的完整上下文信息,用于在分类树中导航和理解某个分类的位置。"
  241. "\n\n返回内容:自身信息(名称、层级、元素数)、祖先链(从根到当前的路径)、直接子节点、同级兄弟节点、"
  242. "该分类下的元素列表(Top100,每个元素含 point_types 列表表示出现在哪些点类型中)。"
  243. "\n\n使用场景:"
  244. "\n- 从 get_frequent_itemsets 中发现某个分类后,了解它的层级上下文"
  245. "\n- 向上泛化:查看祖先节点,理解更宏观的领域"
  246. "\n- 向下细化:查看子节点,找到更具体的方向"
  247. "\n- 平行探索:查看兄弟节点,发现同级别的其他内容领域"
  248. "\n- 获取子节点的 category_id 后可传给 get_frequent_itemsets 做进一步分析")
  249. def get_category_detail(category_id: int) -> str:
  250. """获取分类节点的完整上下文。包括: 自身信息、祖先链(从根到当前节点的路径)、直接子节点列表、同级兄弟节点列表、该分类下的元素列表(去重聚合Top100)。
  251. 使用场景:
  252. - 查看某个分类节点的全貌
  253. - 从分类出发向上回溯(祖先)或向下展开(子节点)
  254. - 查看同级兄弟节点,发现平行的内容领域
  255. Args:
  256. category_id: 分类节点ID(TopicPatternCategory.id)。
  257. Returns:
  258. 分类详情的JSON字符串,含 category、ancestors、children、siblings、elements。
  259. """
  260. execution_id = TopicBuildAgentContext.get_execution_id()
  261. params = {"execution_id": execution_id, "category_id": category_id}
  262. _log_tool_input("get_category_detail", params)
  263. data = pattern_service.get_category_detail_with_context(execution_id, category_id)
  264. if not data:
  265. return _log_tool_output("get_category_detail", f"未找到 category_id={category_id}")
  266. result = json.dumps(data, ensure_ascii=False, indent=2)
  267. return _log_tool_output("get_category_detail", result)
  268. @tool("按名称关键词搜索分类节点。分类节点是分类树上的一个层级(如'中餐'),区别于具体元素(如'水煮鱼')。"
  269. "\n\n返回匹配的分类列表,含 id、name、path、level、element_count、point_types(该分类下元素涉及的点类型列表,如['灵感点','关键点'])。"
  270. "\n\n使用场景:"
  271. "\n- 获取分类的 category_id,用于 get_frequent_itemsets(category_ids=[...]) 查共现"
  272. "\n- 通过 point_types 了解分类在灵感点/目的点/关键点中的分布"
  273. "\n- 获取 category_id 后传给 get_category_detail 查看层级上下文"
  274. "\n- 作为 get_frequent_itemsets 的前置步骤:先按名称找到 ID,再查频繁项集")
  275. def search_categories(keyword: str, source_type: str = None) -> str:
  276. """按名称关键词搜索分类节点。返回匹配的分类列表,含 id、name、path、level、element_count 等。
  277. 使用场景:
  278. - 用关键词定位分类节点,然后用 get_category_detail 或 get_frequent_itemsets_by_category 进一步探索
  279. Args:
  280. keyword: 搜索关键词(模糊匹配分类名称)。
  281. source_type: 按维度筛选:实质/形式/意图。不传则搜索所有维度。
  282. Returns:
  283. 分类列表的JSON字符串。
  284. """
  285. execution_id = TopicBuildAgentContext.get_execution_id()
  286. params = {"execution_id": execution_id, "keyword": keyword, "source_type": source_type}
  287. _log_tool_input("search_categories", params)
  288. data = pattern_service.search_categories(execution_id, keyword, source_type=source_type)
  289. result = json.dumps({
  290. "keyword": keyword,
  291. "count": len(data),
  292. "categories": data,
  293. }, ensure_ascii=False, indent=2)
  294. return _log_tool_output("search_categories", result)
  295. @tool("获取某个分类节点下的具体元素列表。分类是抽象方向(如'中餐'),元素是具体实例(如'水煮鱼'、'麻婆豆腐')。"
  296. "\n\n返回按名称去重聚合的元素列表,按出现次数降序,含 name、element_type、point_types(该元素出现在哪些点类型中)、occurrence_count、post_count。"
  297. "\n\n使用场景:"
  298. "\n- 从分类节点下钻到具体元素,了解该分类包含哪些内容"
  299. "\n- 通过 point_types 了解元素在灵感点/目的点/关键点中的分布"
  300. "\n- 获取元素名称后,传给 get_element_co_occurrences 查元素级共现"
  301. "\n- 从频繁项集的分类出发,落地到可用于选题的具体元素")
  302. def get_category_elements(category_id: int, account_name=None, merge_leve2=None) -> str:
  303. """获取某个分类节点下的元素列表(按名称去重聚合),按出现次数降序。
  304. Args:
  305. category_id: 分类节点ID。
  306. account_name: 按账号名筛选,支持单个字符串或列表(多个取OR)。
  307. merge_leve2: 按二级品类筛选,支持单个字符串或列表(多个取OR)。
  308. Returns:
  309. 元素列表的JSON字符串,每个元素含 name、element_type、occurrence_count、post_count。
  310. """
  311. execution_id = TopicBuildAgentContext.get_execution_id()
  312. params = {"category_id": category_id, "account_name": account_name, "merge_leve2": merge_leve2}
  313. _log_tool_input("get_category_elements", params)
  314. data = pattern_service.get_category_elements(category_id, execution_id=execution_id,
  315. account_name=account_name, merge_leve2=merge_leve2)
  316. result = json.dumps({
  317. "category_id": category_id,
  318. "element_count": len(data),
  319. "elements": data,
  320. }, ensure_ascii=False, indent=2)
  321. return _log_tool_output("get_category_elements", result)
  322. # ============================================================================
  323. # 共现查询
  324. # ============================================================================
  325. @tool("查询分类级共现关系——找到同时包含指定分类下元素的帖子,统计这些帖子中其他分类的出现频率。"
  326. "\n\n核心概念:与 get_frequent_itemsets 不同,此工具是实时从帖子数据中计算共现,"
  327. "不依赖预计算的频繁项集,因此可以灵活组合任意分类进行探索。"
  328. "\n\n使用场景:"
  329. "\n- 单分类探索:category_ids=[123],发现经常和该分类一起出现的其他分类"
  330. "\n- 多分类交叉:category_ids=[123,456],发现同时涉及这两个分类的帖子中还包含什么分类"
  331. "\n- 渐进聚焦:先查单个分类,发现高频共现后叠加查询缩小范围"
  332. "\n- 验证频繁项集:将 get_frequent_itemsets 中发现的模式用此工具做更细粒度的验证"
  333. "\n\n提示:需要分类节点ID,可先用 search_categories 按名称查找。")
  334. def get_category_co_occurrences(category_ids: list, top_n: int = 30,
  335. account_name=None, merge_leve2=None) -> str:
  336. """查询多个分类的共现关系。找到同时包含所有指定分类下元素的帖子,返回这些帖子中其他分类的出现频率。
  337. 支持叠加多分类,传入越多分类,结果越精确(交集缩小)。
  338. Args:
  339. category_ids: 分类节点ID列表(AND逻辑)。传入多个时取帖子交集。
  340. top_n: 返回共现频率最高的前N个分类,默认30。
  341. account_name: 按账号名筛选帖子范围,支持单个字符串或列表(多个取OR)。
  342. merge_leve2: 按二级品类筛选帖子范围,支持单个字符串或列表(多个取OR)。
  343. Returns:
  344. 共现分类列表的JSON字符串,含 matched_post_count(交集帖子数)和 co_categories(共现分类排名)。
  345. """
  346. execution_id = TopicBuildAgentContext.get_execution_id()
  347. params = {"execution_id": execution_id, "category_ids": category_ids, "top_n": top_n,
  348. "account_name": account_name, "merge_leve2": merge_leve2}
  349. _log_tool_input("get_category_co_occurrences", params)
  350. if not category_ids:
  351. return _log_tool_output("get_category_co_occurrences", "错误: category_ids 不能为空")
  352. data = pattern_service.get_category_co_occurrences(
  353. execution_id=execution_id, category_ids=category_ids, top_n=top_n,
  354. account_name=account_name, merge_leve2=merge_leve2,
  355. )
  356. result = json.dumps(data, ensure_ascii=False, indent=2)
  357. return _log_tool_output("get_category_co_occurrences", result)
  358. @tool("查询元素级共现关系——找到同时包含指定元素的帖子,统计这些帖子中其他元素的出现频率。"
  359. "\n\n与 get_category_co_occurrences(分类级共现)互补:此工具在具体元素粒度上分析共现,更适合落地到选题细节。"
  360. "\n\n返回的每个共现元素含 point_types(该元素出现在哪些点类型中,如['灵感点','关键点'])。"
  361. "\n\n使用场景:"
  362. "\n- 单元素探索:element_names=['猫咪'],发现经常和猫咪一起出现的其他元素"
  363. "\n- 多元素交叉:element_names=['猫咪','拟人化'],发现同时涉及这两个元素的帖子还包含什么"
  364. "\n- 渐进聚焦:先查单个元素,发现高频共现后叠加查询缩小范围"
  365. "\n\n提示:element_names 需要精确匹配,可先用 search_elements 按关键词查找确切名称。")
  366. def get_element_co_occurrences(element_names: list, top_n: int = 30,
  367. account_name=None, merge_leve2=None) -> str:
  368. """查询多个元素的共现关系。找到同时包含所有指定元素的帖子,返回这些帖子中其他元素的出现频率。
  369. 支持叠加多元素,传入越多元素,结果越精确(交集缩小)。
  370. Args:
  371. element_names: 元素名称列表(精确匹配)。传入多个时取帖子交集。
  372. top_n: 返回共现频率最高的前N个元素,默认30。
  373. account_name: 按账号名筛选帖子范围,支持单个字符串或列表(多个取OR)。
  374. merge_leve2: 按二级品类筛选帖子范围,支持单个字符串或列表(多个取OR)。
  375. Returns:
  376. 共现元素列表的JSON字符串,含 matched_post_count(交集帖子数)和 co_elements(共现元素排名)。
  377. """
  378. execution_id = TopicBuildAgentContext.get_execution_id()
  379. params = {"execution_id": execution_id, "element_names": element_names, "top_n": top_n,
  380. "account_name": account_name, "merge_leve2": merge_leve2}
  381. _log_tool_input("get_element_co_occurrences", params)
  382. if not element_names:
  383. return _log_tool_output("get_element_co_occurrences", "错误: element_names 不能为空")
  384. data = pattern_service.get_element_co_occurrences(
  385. execution_id=execution_id, element_names=element_names, top_n=top_n,
  386. account_name=account_name, merge_leve2=merge_leve2,
  387. )
  388. result = json.dumps(data, ensure_ascii=False, indent=2)
  389. return _log_tool_output("get_element_co_occurrences", result)