python – 了解是什么让这个正则表达式变得如此缓慢

2019-06-23 09:46:13 阅读：214 来源： 互联网

我有一个正则表达式：

import re

regexp = re.compile(r'^(?P<parts>(?:[\w-]+/?)+)/$')

它匹配一个像foo / bar / baz /这样的字符串,并将foo / bar / baz放在一个名为parts的组中(/？与/ $support this相结合).

这非常合适,直到匹配不以斜线结尾的字符串.然后,它会以看似指数的速度变慢,每个新的字符都会添加到您匹配的字符串中.

例

# This is instant (trailing slash)
regexp.match('this-will-take-no-time-at-all/')

# This is slow
regexp.match('this-takes-about-5-seconds')

# This will not finish
regexp.match('this-probably-will-not-finish-until-the-day-star-turns-black')

我试图理解为什么这个特定的递归问题只发生在/ $(尾部斜杠)不在字符串中时(即不匹配).你能帮我理解尾随斜杠和非尾随斜线情况下底层算法的控制流吗？

注意

我不是在寻找我想要的模式的解决方案.我试图了解具体的正则表达式.

解决方法:

由于你的正则表达式中的catastrophic backtracking,它变慢了：

您可以使用此正则表达式修复灾难性回溯：

^(?P<parts>(?:[\w-]+/)*[\w-]+)/$

根据上面的链接：

The solution to avoid catastrophic backtracking is simple. When nesting repetition operators, make absolutely sure that there is only one way to match the same match.

标签：python,regex,regex-greedy
来源： https://codeday.me/bug/20190623/1269663.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python – 了解是什么让这个正则表达式变得如此缓慢