yangxiaohui abd9789da3 重构文档结构并新增文本相似度工具 hace 1 mes
..
README.md abd9789da3 重构文档结构并新增文本相似度工具 hace 1 mes
__init__.py abd9789da3 重构文档结构并新增文本相似度工具 hace 1 mes
text_utils.py abd9789da3 重构文档结构并新增文本相似度工具 hace 1 mes

README.md

工具组件文档

文本相似度

命令行

# 显示所有算法结果
python utils/text_utils.py --str1 "牛逼坏了" --str2 "我的牛逼"

# 指定算法
python utils/text_utils.py --str1 "hello" --str2 "hallo" --method jaccard

代码

from utils import text_similarity

# 统一接口,指定算法
text_similarity("hello", "hallo", method="levenshtein")  # 0.8
text_similarity("牛逼坏了", "我的牛逼", method="jaccard")    # 0.33
text_similarity("牛逼坏了", "我的牛逼", method="lcs")        # 0.5

API

  • text_similarity(str1, str2, method="levenshtein") -> float - 统一接口
    • method: levenshtein (考虑位置) / jaccard (字符集合) / lcs (保持顺序)