ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Levenshtein距离

2021-11-11 15:32:06  阅读:232  来源: 互联网

标签:字符 abc ratio 距离 Levenshtein 莱文


Levenshtein距离

莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。 指两个字串之間,由一个转成另一个所需的最少编辑操作次数。 允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,刪除一个字符。

GitHub 提供了计算莱文斯坦距离的包。
安装方法:

pip install python-Levenshtein

https://www.lfd.uci.edu/~gohlke/pythonlibs/ 里面查找python-Levenshtein.xxx.whl 离线安装

1 Levenshtein

1.1 汉明距离

  • Levenshtein.hamming(str1, str2)
    计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。

    • 插入一个字符 +1
    • 删除一个字符 +1
    • 替换一个字符 +1
    import Levenshtein.hamming
    Levenshtein.hamming('hello', 'world')
    # 4
    Levenshtein.hamming('abc', 'abd')
    # 1
    

1.2 编辑距离

  • Levenshtein.distance(str1, str2)
    计算编辑距离(也成Levenshtein距离)。是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换。

  • 编辑距离计算方式

    • 插入一个字符 +1
    • 删除一个字符 +1
    • 替换一个字符 +1
    import Levenshtein.distance
    Levenshtein.distance('hello', 'world')
    # 4
    Levenshtein.distance('abc', 'abd')
    # 1
    Levenshtein.distance('abc', 'aecfaf')
    # 4
    

1.3 莱文斯坦比

  • Levenshtein.ratio(str1, str2)
    计算莱文斯坦比。计算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的长度总和,ldist是类编辑距离
    注意:这里的类编辑距离与编辑距离不同

  • 类编辑距离计算方式

    • 插入一个字符 +1
    • 删除一个字符 +1
    • 替换一个字符 +2

    莱文斯坦比越接近1,则两个字符串越接近

    import Levenshtein.ratio
    Levenshtein.ratio('hello', 'world')  # (10 -8) / 10
    0.2
    Levenshtein.ratio('abc', 'aecfaf')  # (9 - 2 - 3) / 9
    0.4444444444444444
    Levenshtein.ratio('abc', 'abd')  # (6 - 2) / 6
    0.6666666666666666
    Levenshtein.ratio('abc', 'abc')  # (6 - 0) / 6
    1.0
    

标签:字符,abc,ratio,距离,Levenshtein,莱文
来源: https://www.cnblogs.com/itelephant/p/15540174.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有