ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

解决爬取网站过程中遇到的HTTP Error 302错误和中文乱码问题

2019-12-26 22:04:04  阅读:229  来源: 互联网

标签:index www HTTP res 302 chinatax 乱码 n810219 requests


今天尝试爬取国家税务总局网站 网址是这个: http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html
from urllib import request
base_url = "http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html"
f = request.urlopen(base_url)

用上面这段代码,结果会报错:

urllib.error.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.

找了一下原因,也没太看懂,大概是 因为没有cookies,而网站需要cookies, 问题在这里: https://stackoverflow.com/questions/32569934/urlopen-returning-redirect-error-for-valid-links 后来在别的地方有人说,可以用requests这个库来抓取信息就不会,于是用了这个库
import requests
res = requests.get("http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html")
print(res.text)

 

写了上面的代码,可以抓取了,但是又遇到一个新问题,就是抓取网页里的中文是乱码 然后又在网上寻找办法,试了很多方法,但最终解决问题很简单  
import requests
res = requests.get("http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html")
res.encoding= 'utf-8'     # 指定res的编码
print(res.text)

最终,问题解决。

标签:index,www,HTTP,res,302,chinatax,乱码,n810219,requests
来源: https://www.cnblogs.com/racoon/p/12104643.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有