ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

模拟匹配Python(url)中大量文本中的字符串

2019-06-10 08:43:12  阅读:223  来源: 互联网

标签:python algorithm fuzzy-comparison


我有一个公司名称列表,我有一个url提到公司名称的列表.

最终目标是查看网址,并找出网址中有多少公司在我的列表中.

示例URL:http://www.dmx.com/about/our-clients

每个URL的结构都不同,因此我没有很好的方法来进行正则表达式搜索并为每个公司名称创建单独的字符串.

我想构建一个for循环来从列表中搜索URL的整个内容中的每个公司.但看起来Levenshtein对于两个较小的字符串更好,而不是短字符串和大量文本.

这个初学者应该在哪里看?

解决方法:

对你来说听起来并不像你需要任何“模糊”匹配.而且我假设当你说“url”时你的意思是“网址指向网址的网页”.只需使用Python的内置子串搜索功能:

>>> import urllib2
>>> webpage = urllib2.urlopen('http://www.dmx.com/about/our-clients')
>>> webpage_text = webpage.read()
>>> webpage.close()
>>> for name in ['Caribou Coffee', 'Express', 'Sears']:
...     if name in webpage_text:
...         print name, "found!"
... 
Caribou Coffee found!
Express found!
>>> 

如果您担心字符串大小写不匹配,只需将其全部转换为大写.

>>> webpage_text = webpage_text.upper()
>>> for name in ['CARIBOU COFFEE', 'EXPRESS', 'SEARS']:
...     if name in webpage_text:
...         print name, 'found!'
... 
CARIBOU COFFEE found!
EXPRESS found!

标签:python,algorithm,fuzzy-comparison
来源: https://codeday.me/bug/20190610/1210765.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有