软工大二下第八周学习随笔

2021-06-30 12:31:27 阅读：140 来源： 互联网

标签：Beautiful 解析网页 Soup 正则表达式工大第八 Python 随笔

在王老师给我们发布作业之后，我看到Python爬虫，但是Python基础语法我还不会。所以我在图书馆里借了一本Python网络爬虫教程。

所谓网页解析器，简单地说就是用来解析HTML网页的工具，它主要用于从HTML网页信息中提取需要的、有价值的数据和链接。在Python中解析网页主要用到正则表达式、Lxml库、Beautiful Soup这三种工具。

一是正则表达式。正则表达式描述了一种字符串匹配的模式。可以用来检查一个串是否含有某种子串，将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式的优点是基本能用正则表达式来提取想要的所有信息，效率比较高，但缺点也很明显——正则表达式不是很直观，写起来比较复杂。

二是Lxml库。这个库使用的是XPath语法，同样是效率比较高的解析库。Xpath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath比较直观易懂，配合Chrome浏览器或Firefox浏览器，写起来非常简单，它的代码速度运行快且健壮，一般来说是解析数据的最佳选择。

三是Beautiful Soup。Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过我们喜欢的转换器实现惯用的文档导航、查找。Beautiful Soup编写效率高，能帮程序员节省数小时甚至数天的工作时间。Beautiful Soup比较简单易学，但相比Lxml和正则表达式，解析速度慢很多。

标签：Beautiful,解析,网页,Soup,正则表达式,工大,第八,Python,随笔
来源： https://www.cnblogs.com/weijia-home/p/14953765.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

软工大二下第八周学习随笔