我需要为CPV(常见采购词汇)代码搜索相当冗长的字符串.
目前我正在使用一个简单的for循环和str.find()
问题是,如果CPV代码以稍微不同的格式列出,则此算法将找不到它.
什么是在字符串中搜索代码的所有不同迭代的最有效方法?是否只是重新格式化最多10,000个CPV代码并对每个实例使用str.find()的情况?
不同格式的示例可以如下
30124120-1
301241201
30124120 - 1
30124120 1
30124120.1
等等
谢谢 :)
解决方法:
试试正则表达式:
>>> cpv = re.compile(r'([0-9]+[-\. ]?[0-9])')
>>> print cpv.findall('foo 30124120-1 bar 21966823.1 baz')
['30124120-1', '21966823.1']
(修改,直到它与您的数据中的CPV紧密匹配.)
标签:python,string,fuzzy-search 来源: https://codeday.me/bug/20190827/1737800.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。