ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

Python爬虫学习(1)

2021-01-28 21:01:35  阅读:172  来源: 互联网

标签:网页 strhtml Python 爬虫 BeautifulSoup 学习 soup requests 解析


为了完成毕业设计,从Python零基础开始学习爬虫技术。

1.Requests库

功能:用于网页请求
网页请求方式:GET方法(常用)与POST方法

使用GET方式抓取网页源码数据:

import requests        				#导入requests包
url = 'http://www.baidu.com/'		#将目标网页赋值给一个变量
strhtml = requests.get(url)        	#调用requests库的Get方法获取网页数据,并将其赋值给变量
print(strhtml.text)					#打印网页的文本数据

2.BeautifulSoup库

功能:从网页中抓取数据
常见方法:BeautifulSoup()、soup.select()、soup.prettify()等

简单示例:

import requests        							#导入requests包
from bs4 import    BeautifulSoup				#导入bs4中的BeautifulSoup包
url='http://www.baidu.com/'						
strhtml=requests.get(url)				
soup=BeautifulSoup(strhtml.text,'lxml')			#指定lxml解析器进行解析
print(soup)										#打印结果

2.1 BeautifulSoup()——解析文档

Beautiful Soup 选择最合适的解析器来解析文档,解析后便将复杂的 HTML 文档转换成树形结构,并且每个节点都是 Python 对象。

soup=BeautifulSoup(strhtml.text,'lxml')	

此处指定 lxml 解析器进行解析,将解析后的文档存储到新建的变量 soup 中。

标签:网页,strhtml,Python,爬虫,BeautifulSoup,学习,soup,requests,解析
来源: https://blog.csdn.net/weixin_43363720/article/details/112794496

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有