text_utils.py 11 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385
  1. #!/usr/bin/env python3
  2. """
  3. 文本处理工具模块
  4. 提供文本相似度、编辑距离等功能
  5. """
  6. from typing import Tuple
  7. def edit_distance(str1: str, str2: str) -> int:
  8. """
  9. 计算两个字符串的编辑距离(Levenshtein距离)
  10. 编辑距离是指将一个字符串转换为另一个字符串所需的最少编辑操作次数。
  11. 允许的操作包括:插入、删除、替换字符。
  12. Args:
  13. str1: 第一个字符串
  14. str2: 第二个字符串
  15. Returns:
  16. int: 编辑距离(最少操作次数)
  17. Examples:
  18. >>> edit_distance("kitten", "sitting")
  19. 3
  20. >>> edit_distance("hello", "hello")
  21. 0
  22. >>> edit_distance("", "abc")
  23. 3
  24. """
  25. len1, len2 = len(str1), len(str2)
  26. # 创建 DP 表格,dp[i][j] 表示 str1[:i] 转换为 str2[:j] 的编辑距离
  27. dp = [[0] * (len2 + 1) for _ in range(len1 + 1)]
  28. # 初始化第一行和第一列
  29. for i in range(len1 + 1):
  30. dp[i][0] = i # str1[:i] 转换为空字符串需要 i 次删除
  31. for j in range(len2 + 1):
  32. dp[0][j] = j # 空字符串转换为 str2[:j] 需要 j 次插入
  33. # 动态规划填充表格
  34. for i in range(1, len1 + 1):
  35. for j in range(1, len2 + 1):
  36. if str1[i - 1] == str2[j - 1]:
  37. # 字符相同,不需要操作
  38. dp[i][j] = dp[i - 1][j - 1]
  39. else:
  40. # 取三种操作的最小值
  41. dp[i][j] = min(
  42. dp[i - 1][j] + 1, # 删除 str1[i-1]
  43. dp[i][j - 1] + 1, # 插入 str2[j-1]
  44. dp[i - 1][j - 1] + 1 # 替换 str1[i-1] 为 str2[j-1]
  45. )
  46. return dp[len1][len2]
  47. def similarity(str1: str, str2: str) -> float:
  48. """
  49. 基于编辑距离计算两个字符串的相似度
  50. 相似度 = 1 - (编辑距离 / 较长字符串的长度)
  51. 返回值在 [0, 1] 区间,1 表示完全相同,0 表示完全不同
  52. Args:
  53. str1: 第一个字符串
  54. str2: 第二个字符串
  55. Returns:
  56. float: 相似度,范围 [0, 1]
  57. Examples:
  58. >>> similarity("hello", "hello")
  59. 1.0
  60. >>> similarity("hello", "hallo")
  61. 0.8
  62. >>> similarity("abc", "xyz")
  63. 0.0
  64. """
  65. if not str1 and not str2:
  66. return 1.0
  67. max_len = max(len(str1), len(str2))
  68. if max_len == 0:
  69. return 1.0
  70. distance = edit_distance(str1, str2)
  71. return 1 - (distance / max_len)
  72. def jaccard_similarity(str1: str, str2: str) -> float:
  73. """
  74. 计算两个字符串的Jaccard相似度(基于字符集合)
  75. Jaccard相似度 = 交集大小 / 并集大小
  76. 不考虑字符位置,只考虑字符是否出现
  77. Args:
  78. str1: 第一个字符串
  79. str2: 第二个字符串
  80. Returns:
  81. float: Jaccard相似度,范围 [0, 1]
  82. Examples:
  83. >>> jaccard_similarity("牛逼坏了", "我的牛逼")
  84. 0.5 # 交集{'牛','逼'}, 并集{'牛','逼','坏','了','我','的'}
  85. >>> jaccard_similarity("hello", "hallo")
  86. 0.8 # 交集{'h','a','l','o'}, 并集{'h','e','l','o','a'}
  87. """
  88. if not str1 and not str2:
  89. return 1.0
  90. set1 = set(str1)
  91. set2 = set(str2)
  92. intersection = set1 & set2
  93. union = set1 | set2
  94. if len(union) == 0:
  95. return 1.0
  96. return len(intersection) / len(union)
  97. def longest_common_subsequence(str1: str, str2: str) -> str:
  98. """
  99. 计算两个字符串的最长公共子序列(LCS)
  100. 子序列不要求连续,但要求保持相对顺序
  101. Args:
  102. str1: 第一个字符串
  103. str2: 第二个字符串
  104. Returns:
  105. str: 最长公共子序列字符串
  106. Examples:
  107. >>> longest_common_subsequence("牛逼坏了", "我的牛逼")
  108. "牛逼"
  109. >>> longest_common_subsequence("ABCDGH", "AEDFHR")
  110. "ADH"
  111. """
  112. len1, len2 = len(str1), len(str2)
  113. # 创建 DP 表格,dp[i][j] 表示 str1[:i] 和 str2[:j] 的 LCS 长度
  114. dp = [[0] * (len2 + 1) for _ in range(len1 + 1)]
  115. # 填充 DP 表格
  116. for i in range(1, len1 + 1):
  117. for j in range(1, len2 + 1):
  118. if str1[i - 1] == str2[j - 1]:
  119. dp[i][j] = dp[i - 1][j - 1] + 1
  120. else:
  121. dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
  122. # 回溯构建 LCS 字符串
  123. lcs = []
  124. i, j = len1, len2
  125. while i > 0 and j > 0:
  126. if str1[i - 1] == str2[j - 1]:
  127. lcs.append(str1[i - 1])
  128. i -= 1
  129. j -= 1
  130. elif dp[i - 1][j] > dp[i][j - 1]:
  131. i -= 1
  132. else:
  133. j -= 1
  134. return ''.join(reversed(lcs))
  135. def lcs_similarity(str1: str, str2: str) -> float:
  136. """
  137. 基于最长公共子序列(LCS)计算相似度
  138. 相似度 = 2 * LCS长度 / (str1长度 + str2长度)
  139. Args:
  140. str1: 第一个字符串
  141. str2: 第二个字符串
  142. Returns:
  143. float: LCS相似度,范围 [0, 1]
  144. Examples:
  145. >>> lcs_similarity("牛逼坏了", "我的牛逼")
  146. 0.5 # LCS="牛逼" (长度2), 2*2/(4+4)=0.5
  147. >>> lcs_similarity("hello", "hallo")
  148. 0.8 # LCS="hllo" (长度4), 2*4/(5+5)=0.8
  149. """
  150. if not str1 and not str2:
  151. return 1.0
  152. lcs = longest_common_subsequence(str1, str2)
  153. lcs_len = len(lcs)
  154. total_len = len(str1) + len(str2)
  155. if total_len == 0:
  156. return 1.0
  157. return 2 * lcs_len / total_len
  158. def text_similarity(str1: str, str2: str, method: str = "levenshtein") -> float:
  159. """
  160. 计算两个字符串的相似度(统一接口)
  161. Args:
  162. str1: 第一个字符串
  163. str2: 第二个字符串
  164. method: 算法类型,可选值:
  165. - "levenshtein": 编辑距离相似度(考虑位置)
  166. - "jaccard": Jaccard相似度(字符集合)
  167. - "lcs": LCS相似度(保持顺序)
  168. Returns:
  169. float: 相似度,范围 [0, 1]
  170. Examples:
  171. >>> text_similarity("hello", "hallo", method="levenshtein")
  172. 0.8
  173. >>> text_similarity("牛逼坏了", "我的牛逼", method="jaccard")
  174. 0.33
  175. >>> text_similarity("牛逼坏了", "我的牛逼", method="lcs")
  176. 0.5
  177. """
  178. method = method.lower()
  179. if method == "levenshtein":
  180. return similarity(str1, str2)
  181. elif method == "jaccard":
  182. return jaccard_similarity(str1, str2)
  183. elif method == "lcs":
  184. return lcs_similarity(str1, str2)
  185. else:
  186. raise ValueError(f"Unknown method: {method}. Choose from: levenshtein, jaccard, lcs")
  187. def edit_distance_with_operations(str1: str, str2: str) -> Tuple[int, list]:
  188. """
  189. 计算编辑距离并返回操作序列
  190. Args:
  191. str1: 第一个字符串
  192. str2: 第二个字符串
  193. Returns:
  194. Tuple[int, list]: (编辑距离, 操作列表)
  195. 操作列表格式:[("operation", char, position), ...]
  196. operation 可以是: "insert", "delete", "replace"
  197. """
  198. len1, len2 = len(str1), len(str2)
  199. # 创建 DP 表格
  200. dp = [[0] * (len2 + 1) for _ in range(len1 + 1)]
  201. # 初始化
  202. for i in range(len1 + 1):
  203. dp[i][0] = i
  204. for j in range(len2 + 1):
  205. dp[0][j] = j
  206. # 填充 DP 表格
  207. for i in range(1, len1 + 1):
  208. for j in range(1, len2 + 1):
  209. if str1[i - 1] == str2[j - 1]:
  210. dp[i][j] = dp[i - 1][j - 1]
  211. else:
  212. dp[i][j] = min(
  213. dp[i - 1][j] + 1,
  214. dp[i][j - 1] + 1,
  215. dp[i - 1][j - 1] + 1
  216. )
  217. # 回溯获取操作序列
  218. operations = []
  219. i, j = len1, len2
  220. while i > 0 or j > 0:
  221. if i == 0:
  222. operations.append(("insert", str2[j - 1], j - 1))
  223. j -= 1
  224. elif j == 0:
  225. operations.append(("delete", str1[i - 1], i - 1))
  226. i -= 1
  227. elif str1[i - 1] == str2[j - 1]:
  228. i -= 1
  229. j -= 1
  230. else:
  231. min_val = min(dp[i - 1][j], dp[i][j - 1], dp[i - 1][j - 1])
  232. if dp[i - 1][j - 1] == min_val:
  233. operations.append(("replace", f"{str1[i-1]}->{str2[j-1]}", i - 1))
  234. i -= 1
  235. j -= 1
  236. elif dp[i - 1][j] == min_val:
  237. operations.append(("delete", str1[i - 1], i - 1))
  238. i -= 1
  239. else:
  240. operations.append(("insert", str2[j - 1], j - 1))
  241. j -= 1
  242. operations.reverse()
  243. return dp[len1][len2], operations
  244. def main():
  245. """命令行接口"""
  246. import argparse
  247. parser = argparse.ArgumentParser(
  248. description="计算两个文本的编辑距离和相似度(支持多种算法)",
  249. formatter_class=argparse.RawDescriptionHelpFormatter,
  250. epilog="""
  251. 示例:
  252. python utils/text_utils.py --str1 "hello" --str2 "hallo"
  253. python utils/text_utils.py --str1 "牛逼坏了" --str2 "我的牛逼" --method jaccard
  254. python utils/text_utils.py --str1 "hello" --str2 "hallo" --verbose
  255. """
  256. )
  257. parser.add_argument("--str1", required=True, help="第一个字符串")
  258. parser.add_argument("--str2", required=True, help="第二个字符串")
  259. parser.add_argument("--method", "-m", default="all",
  260. choices=["all", "levenshtein", "jaccard", "lcs"],
  261. help="相似度算法(默认显示所有)")
  262. parser.add_argument("--verbose", "-v", action="store_true",
  263. help="显示详细的操作步骤")
  264. args = parser.parse_args()
  265. print(f"\n文本对比结果:")
  266. print(f"{'='*50}")
  267. print(f"字符串1: {args.str1}")
  268. print(f"字符串2: {args.str2}")
  269. print(f"{'='*50}")
  270. # 根据method参数显示相应的结果
  271. if args.method == "all":
  272. distance = edit_distance(args.str1, args.str2)
  273. levenshtein_sim = similarity(args.str1, args.str2)
  274. jaccard_sim = jaccard_similarity(args.str1, args.str2)
  275. lcs_sim = lcs_similarity(args.str1, args.str2)
  276. lcs_str = longest_common_subsequence(args.str1, args.str2)
  277. print(f"编辑距离 (Levenshtein): {distance}")
  278. print(f"编辑距离相似度: {levenshtein_sim:.2%}")
  279. print(f"Jaccard相似度: {jaccard_sim:.2%} (基于字符集合)")
  280. print(f"LCS相似度: {lcs_sim:.2%} (基于公共子序列)")
  281. print(f"最长公共子序列: '{lcs_str}'")
  282. elif args.method == "levenshtein":
  283. distance = edit_distance(args.str1, args.str2)
  284. sim = similarity(args.str1, args.str2)
  285. print(f"编辑距离: {distance}")
  286. print(f"相似度: {sim:.2%}")
  287. elif args.method == "jaccard":
  288. sim = jaccard_similarity(args.str1, args.str2)
  289. print(f"Jaccard相似度: {sim:.2%}")
  290. elif args.method == "lcs":
  291. sim = lcs_similarity(args.str1, args.str2)
  292. lcs_str = longest_common_subsequence(args.str1, args.str2)
  293. print(f"LCS相似度: {sim:.2%}")
  294. print(f"最长公共子序列: '{lcs_str}'")
  295. if args.verbose:
  296. distance, operations = edit_distance_with_operations(args.str1, args.str2)
  297. print(f"\n编辑操作步骤 (共{len(operations)}步):")
  298. for idx, (op, char, pos) in enumerate(operations, 1):
  299. if op == "insert":
  300. print(f" {idx}. 插入 '{char}' 到位置 {pos}")
  301. elif op == "delete":
  302. print(f" {idx}. 删除 '{char}' 在位置 {pos}")
  303. elif op == "replace":
  304. print(f" {idx}. 替换位置 {pos} 的字符: {char}")
  305. print()
  306. if __name__ == "__main__":
  307. main()