标签:登录 self python15 爬虫 parse Scrapy 页面
一、Scrapy项目创建
1.scrapy startproject ZhipinSpider
2.使用如下命令来开启 shell 调试
二、Scrapy爬虫项目开发过程详解
因此,开发者主要就是做两件事情:
1.将要爬取的各页面 URL 定义在 start_urls 列表中。
2.在 parse(self, response) 方法中通过 XPath 或 CSS 选择器提取项目感兴趣的信息。
extract()-------------------------------返回列表
extract()[0],extract_first()---------------------返回str
Spider 使用 yield 将 item 返回给 Scrapy 引擎之后,Scrapy 引擎将这些 item 收集起来传给项目的 Pipeline,因此自然就到了使用 Scrapy 开发爬虫的第二步。
三、编写 pipelines.py 文件,该文件负责将所爬取的数据写入文件或数据库中。
四、修改 settings.py 文件进行一些简单的配置,比如增加 User-Agent 头。取消 settings.py 文件中如下代码行的注释,并将这些代码行改为如下形式:
应该将上面这段代码放在 parse(self, response) 方法的后面,这样可以保证 Spider 在爬取页面中所有项目感兴趣的工作信息之后,才会向下一个页面发送请求。
上面程序中第 2 行代码解析页面中的“下一页”链接;第 7 行代码显式使用 scrapy.Request 来发送请求,并指定使用 self.parse 方法来解析服务器响应数据。需要说明的是,这是一个递归操作,即每当 Spider 解析完页面中项目感兴趣的工作信息之后,它总会再次请求“下一页”数据,通过这种方式即可爬取广州地区所有的热门职位信息。
scrapy.Request(new_line,callback=self.parse,dont_filter=True)
dont_filter=True ---------------------------------------------表示url不过滤
六、scrapy爬虫数据保存到MySQL数据库
将 Pipeline 文件改为如下形式,即可将爬取到的信息保存到 MySQL 数据库中:
七、 Scrapy反爬虫常见解决方案(包含5种方法)
1.IP 地址验证
2.禁用Cookie
3.违反爬虫规则文件
4.限制访问频率
5.图形验证码
八、Selenium整合:启动浏览器并登陆
为了登录该网站,通常有两种做法:
1.直接用爬虫程序向网站的登录处理程序提交请求,将用户名、密码、验证码等作为请求参数,登录成功后记录登录后的 Cookie 数据。
2.使用真正的浏览器来模拟登录,然后记录浏览器登录之后的 Cookie 数据。
标签:登录,self,python15,爬虫,parse,Scrapy,页面 来源: https://blog.csdn.net/bylfsj/article/details/100020142
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。