数据采集与融合技术_实验一

2021-10-02 16:02:47 阅读：189 来源： 互联网

标签：re 正则表达式融合 urllib 爬取采集实验 requests 源代码

作业①：

1）大学软工排名信息的爬取

– 要求：用urllib和re库方法定向爬取给定网址https://www.shanghairanking.cn/rankings/bcsr/2020/0812的数据。
– 输出信息：

2020排名	全部层次	学校名称	总分
1	前2%	清华大学	1661.0

完成过程：
1.向页面发送请求，获取源代码：

2.利用正则表达式匹配数据并存入相应列表：

3.处理列表元素并打印：

4.结果展示：

2）心得体会：此次作业老师只允许使用urllib和re库定向爬取网址，这对我们的正则表达式的使用熟练度有一定的要求。
所以通过这次实验我对正则表达式的理解更加的清晰，使用也更加的熟练。

作业②

1）城市实时空气质量信息的爬取
– 要求：用requests和Beautiful Soup库方法设计爬取https://datacenter.mee.gov.cn/aqiweb2/AQI实时报。
– 输出信息：

序号城市 AQI PM2.5 SO2 NO2 CO 首要污染物

1 北京市 55 6 5 1.0 225 ——

完成过程：
1.向页面发送请求，获取源代码：

2.创建soup对象，匹配相应td节点

3.打印节点信息

4.结果展示：

2）心得体会：这题老师要求使用requests和Beautiful Soup库方法设计爬取网址信息。
通过此题的完成，我明白了Beautiful Soup库方法使用的便利，也熟练的掌握了css语法操作，同时也更加熟练的使用requests库的方法。
作业③

1）福大新闻网图片的爬取
– 要求：使用urllib和requests和re爬取一个给定网页https://news.fzu.edu.cn/爬取该网站下的所有图片
– 输出信息：将自选网页内的所有jpg文件保存在一个文件夹中

完成过程（urllib库）：
1.向页面发送请求，获取源代码：

2.利用正则表达式匹配并获取图片下载链接：

3.下载图片：

完成过程（requests库）：
1.向页面发送请求，获取源代码：

2.利用正则表达式匹配图片下载链接：

3.下载图片：

4.结果展示：

2）心得体会：此题老师要求使用urllib和requests和re库爬取一个给定网址的图片信息。
通过此题实践，我掌握了从网页上保存图片至本地的urllib方法和requests方法，同时也对正则表达式的使用更加的熟练。
附录

序号	城市	AQI	PM2.5	SO2	NO2	CO	首要污染物
1	北京市	55	6	5	1.0	225	——

三题完整代码

标签：re,正则表达式,融合,urllib,爬取,采集,实验,requests,源代码
来源： https://www.cnblogs.com/1023668102dun/p/15362042.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

数据采集与融合技术_实验一

作业①：

1）大学软工排名信息的爬取

作业②

作业③

附录