首页 > 编程语言> 文章详细

2020最新最全Python面试题整理（三）

2020-10-08 09:32:12 阅读：232 来源： 互联网

标签：面试题网页请求 Python 爬虫爬取 headers 2020 Spiders

1 常见的HTTP方法有哪些？

GET：请求指定的页面信息，返回实体主体；
HEAD:类似于get请求，只不过返回的响应中没有具体的内容，用于捕获报头；
POST：向指定资源提交数据进行处理请求(比如表单提交或者上传文件)，。数据被包含在请求体中。
PUT:从客户端向服务端传送数据取代指定的文档的内容；
DELETE：请求删除指定的页面；
CONNNECT：HTTP1.1协议中预留给能够将连接方式改为管道方式的代理服务器；
OPTIONS:允许客户端查看服务器的性能； TRACE：回显服务器的请求，主要用于测试或者诊断。

2 说一说redis-scrapy中redis的作用?

它是将scrapy框架中Scheduler替换为redis数据库，实现队列管理共享。
优点：

可以充分利用多台机器的带宽；
可以充分利用多台机器的IP地址。

3 遇到的反爬虫策略以及解决方法?

通过headers反爬虫：自定义headers，添加网页中的headers数据。
基于用户行为的反爬虫(封IP)：可以使用多个代理IP爬取或者将爬取的频率降低。
动态网页反爬虫(JS或者Ajax请求数据)：动态网页可以使用 selenium + phantomjs 抓取。
对部分数据加密处理(数据乱码):找到加密方法进行逆向推理。

4 如果让你来防范网站爬虫，你应该怎么来提高爬取的难度？

判断headers的User-Agent；
检测同一个IP的访问频率；
数据通过Ajax获取；
爬取行为是对页面的源文件爬取，如果要爬取静态网页的html代码，可以使用jquery去模仿写html。

5 scrapy分为几个组成部分？分别有什么作用？

分为5个部分；Spiders(爬虫类)，Scrapy Engine(引擎),Scheduler(调度器),Downloader(下载器),Item Pipeline(处理管道)。

Spiders:开发者自定义的一个类，用来解析网页并抓取指定url返回的内容。
Scrapy Engine:控制整个系统的数据处理流程，并进行事务处理的触发。
Scheduler：接收Engine发出的requests，并将这些requests放入到处理列队中，以便之后engine需要时再提供。
Download：抓取网页信息提供给engine，进而转发至Spiders。
Item Pipeline:负责处理Spiders类提取之后的数据。比如清理HTML数据、验证爬取的数据(检查item包含某些字段)、查重(并丢弃)、将爬取结果保存到数据库中

标签：面试题,网页,请求,Python,爬虫,爬取,headers,2020,Spiders
来源： https://www.cnblogs.com/comewithmi/p/13780321.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。