ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

KMP

2022-08-22 14:33:33  阅读:150  来源: 互联网

标签:字符 匹配 模式 next 数组 KMP 回退


# 字符串匹配——KMP算法

1. 算法原理

在暴力匹配过程中,当遇到匹配失败的字符时,暴力法做法是将模式串后移一位,从头开始匹配,直到成功匹配下一位字符。

KMP算法的核心思想就是:充分利用模式串自身的信息,在每次匹配失败之后不需要重复匹配之前已经成功匹配的字符,快速定位到下一个需要匹配的字符,从而提高匹配效率。因此,我们需要知道匹配失败后应该回退到哪里继续匹配

而实现这个思想的途径就是计算出模式串的最长相等前后缀,在算法中记录在一个数组中,叫做next[]数组。

相比于暴力法遍历文本串和模式串时间复杂度为O(mn),KMP算法时间复杂度为O(m+n)

2. 匹配过程

  • s[n]是长文本,ns的长度,
  • p[m]是模式串,mp的长度

假设读入的字符串都是从下标为1开始存放,即下标为0的位置不适用,s[0]p[0]不存放字符。

考虑到next[]数组已经存在的情况,开始遍历文本串匹配模式串:

// 匹配
for (int i = 1, j = 0; i <= n; i ++ )	//1. 关于i,j的起点
{
    while (j && s[i] != p[j + 1]) j = ne[j]; //2. 匹配失败的情况
    if (s[i] == p[j + 1]) j ++ ;	//3. 匹配成功的情况
    if (j == m)	//4. 匹配结束的情况
    {
        j = ne[j];
        // 匹配成功后的逻辑
    }
}

i遍历文本串,j遍历模式串,ne[]为next数组。

  1. 由于存放字符串是从下标1开始,因此让i = 1。每次匹配的时候都是跟模式串的j指针的下一位判断,因此j = 0,这样就会从j + 1 = 1也就是模式串的开头开始匹配。
  2. s[i] != p[j + 1]即模式串的下一个字符匹配失败,则根据next数组进行回退直到匹配成功,发生回退的前提同时要保证j > 0,因为j = 0时回退没有意义。
  3. s[i] == p[j + 1]即模式串的下一个字符匹配成功,则j指针向后移动,继续匹配下一位。
  4. 直到j == m即模式串的指针位置等于其长度,也就是整个模式串都匹配完成。

3. 求next数组(重点)

求next数组的思路与前面匹配的思路一样,只不过在找next数组时,文本串和模式串都是同一个即p[m]

//求模式串的Next数组:
for (int i = 2, j = 0; i <= m; i ++ )	//1. 关于i, j
{
    while (j && p[i] != p[j + 1]) j = ne[j]; //2. 匹配失败的情况
    if (p[i] == p[j + 1]) j ++ ;	//3. 匹配成功的情况
    ne[i] = j;	//4. 记录next数组
}

由于第一位的前缀没有字符,因此第一位的next数组的值为0,不需要计算。

  1. 因此要从弟二位开始遍历,即i = 2。然后j = 0跟前面分析匹配过程一样,因为是利用j的下一位即j + 1去匹配。
  2. p[i] != p[j + 1]即下一个字符匹配失败时,j利用前面已经计算出来的next数组信息进行回退直到匹配成功。
  3. p[i] == p[j + 1]即下一个字符匹配成功时,j指针向后移动,相当于前后缀相等。
  4. 相等前后缀依次最多只能增加一位,因为每次循环i只向后移动了一位,所以每次循环都能得出i位置的next数组的值。

4. 举例

用一个例子来帮助理解:当模式串为p[m] = " abababca";

因为字符串存在下标为1的位置,因此初始时j = 0指向的是字符串的前一位。然后第一位没有前缀因此next数组为0。

i = 2从第二位开始,此时j + 1指向第一位,两者不匹配且j = 0,因此无需回退,直接记录当前位置的next数组值为j(0)。

随后i指针向后移动一位。再次比较j + 1的字符,此时两者匹配成功,j指针向后移动一位,同时记录next数组的值。

i指针继续后移,再比较j + 1的字符,再次匹配成功,j指针再加1,记录next数组值...

在这个过程中,只要一直匹配成功,最长相等前后缀就会一直增加,j指向这个前缀,因此j会一直增加

直到再次出现不匹配。

此时执行j指针的回退,利用前面记录好的next数组回退,提高效率。

一直回退直到j = 0或找到下一个匹配的字符。

最后继续匹配直到串结束。

标签:字符,匹配,模式,next,数组,KMP,回退
来源: https://www.cnblogs.com/Ethan-Code/p/16612664.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有