以下笔记基本上按照时间顺序 随笔 一个小例子,一个突然的感想 下载及爬取网页内容 糗事百科图片爬取 bs4的解析不成功,select怎么都是返回空列表 request,正则爬虫 文件的读写 post登录请求 抓取菜鸟教程中python内置函数的关键字和链接 许久没写爬虫,记录下易错点 XML和JSON的系列
1、实例化采集类后,自带一些header信息,类似user-agent、accept之类的,能不手动添加就不手动添加(已实现) 2、在执行了采集后,获取采集到的响应头,解析其中的数据,该记录的记录该执行的执行,在下次调用采集方法时继承获取到的信息(已实现) 3、可以采集纯文本内容,也可以采集二进制流,方便采集
经过一个多星期的学习和尝试,相信大家都已经熟悉python的语法,结构,以及一些基本的包和用途了,现在我们正式准备开始采集,但是有一个大问题,就像之前采集那个美国案例站的时候,每次采集,我们都要写上好几行的指令,而且,还没继承一些类似cookie、refer之类的信息,所以,简单的使用python的urll