ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

爬虫学习打卡第四天——requests实战

2021-11-17 22:58:32  阅读:165  来源: 互联网

标签:respond encoding url get 爬虫 content 打卡 requests


今天实战运用requests

一、爬搜狗

# -*- coding: utf-8 -*-
import requests
url="http://www.sogou.com"
respond=requests.get(url)#1
respond.encoding=respond.apparent_encoding
print(respond.text)

代码分析:

1、respond.encoding作用从http header中提取响应内容编码。若header中没有charset字段则默认为ISO-8859-1编码模式,则无法解析中文,有可能会出现乱码。respond.apparent_encoding作用为从内容中分析出的响应内容编码。所以使用respond.encoding=respond.apparent_encoding

运行结果:

二、照片

这里爬爬我博客的头像

①首先获得图片链接

import requests
src = 'https://avatar.csdnimg.cn/D/2/1/1_m0_60960867_1633660031.jpg'
respond = requests.get(src)#1
with open('touxiang.jpg', 'wb') as f:#2
    f.write(respond.content)#3
print('搞定!!')

代码分析

#1 先用requests库的get请求访问图片链接

#2 以touxiang为文件名,'wb'为读写类型,这里是写入。('rb'为读取)

#3 然后用respond.content接收图片内容,然后再写入(write)

运行结果:

就出现了

点开就可以看到我自己的头像

 三、搜狗关键词搜索爬取

import requests
url='https://www.sogou.com/web'
kw=input('enter a word: ')#1
header={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'
}#2
param={
    'query':kw
}
respond=requests.get(url=url,params=param,headers=header)
content=respond.text#3
fileName=kw+'.html'#4
with open(fileName,'w',encoding='utf-8') as f:
    f.write(content)
print(fileName,'搞定!!')

代码分析

我们使用所爬网站中的User-Agent来进行伪装,让它以为我们是它本身的一部分,从而使得我们能够成功爬取我们需要的信息。

#1 输出提示词并键盘输入关键字

#2 请求头,打开搜狗搜索,鼠标右键选择‘检查’,在网络中,点击搜索,可得到请求头。

#3 请求url对应的页面内容

#4 设置文件名为键盘输入的关键字,并且为html文件

运行结果:

 

然后打开html文件

标签:respond,encoding,url,get,爬虫,content,打卡,requests
来源: https://blog.csdn.net/m0_60960867/article/details/121375396

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有