标签:sequence Python res gb2312 gbk decode html 报错
一、报错场景
使用python遇到报错:“UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0xa4 in position… : illegal multibyte sequence”一般有如下两种场景:
1.爬取中文网站内容
html = requests.get(url).decode("gb2312")
2.读取gbk编码的文件
result = open(filename, 'r', encoding='gb2312')
二、报错原因
gb2312收录的中文字符集不够全面,在遇到如繁体字的时候会出现解码错误。
汉字字符集范围 gb2312 < gbk < gb18030
三、报错解决
1.忽略解码错误
html = requests.get(url).decode('gb2312',errors = 'ignore')
decode函数默认的参数就是strict,decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,strict表示遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?取代非法字符;
2.将gbk2312替换为中文字符集更全面的gbk
result = open(filename, 'r', encoding='gbk')
注:如果采用'ignore'忽略非法字符报错,读出来的中文将是乱码,如果想要读取准确中文内容可以先将gb2312编码的内容转为utf-8再进行读取。
res = requests.get(url) res = unicode(res, "gb2312").encode("utf8") res.encoding = 'utf-8' html = res.text print(html)
此时可以正常输出中文字符了。
标签:sequence,Python,res,gb2312,gbk,decode,html,报错 来源: https://www.cnblogs.com/zcg-cpdd/p/15582658.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。