ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

爬虫处理网站的bug---小于号未转化为实体符

2019-02-13 21:42:44  阅读:102  来源: 互联网

标签:bs4 标签 爬虫 bug 转化 解析 小于号


1.发现BUG

  爬取 chinadrugtrials 详情页的公示的试验信息时候, 发现程序在某些地方跑断掉了,如下:

  

 

 经排查发现,原来这是网页的bug-----极少数详情页面的某些文字中的小于号,未转化为实体符,连接上后面的 ul 或者a(大写也是), 成了类似标签的东西,

导致bs4 解析时候把它当成了标签的起始尖括号,自动补全了。

 

2.解决思路:

  因为要用bs4结构化解析页面,不能用正则统一替换小于号(正常标签也会改变),而且情况比较少,所以可以在用 Beautifulsoup解析前,将未转化的小于号转化为实体符 < 

代码更改如下:

 

 

 

 

标签:bs4,标签,爬虫,bug,转化,解析,小于号
来源: https://www.cnblogs.com/liangmingshen/p/10371904.html

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有