工具组件文档
文本相似度
命令行
# 显示所有算法结果
python utils/text_utils.py --str1 "牛逼坏了" --str2 "我的牛逼"
# 指定算法
python utils/text_utils.py --str1 "hello" --str2 "hallo" --method jaccard
代码
from utils import text_similarity
# 统一接口,指定算法
text_similarity("hello", "hallo", method="levenshtein") # 0.8
text_similarity("牛逼坏了", "我的牛逼", method="jaccard") # 0.33
text_similarity("牛逼坏了", "我的牛逼", method="lcs") # 0.5
API
text_similarity(str1, str2, method="levenshtein") -> float - 统一接口
- method:
levenshtein (考虑位置) / jaccard (字符集合) / lcs (保持顺序)