ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

爬虫简介

2019-02-26 17:41:19  阅读:271  来源: 互联网

标签:协议 python 简介 爬虫 robots 实现 门户网站


什么是爬虫?

   爬虫就是通过编写程序,模拟浏览器来上网,然后再互联网上抓取数据的过程。

那些语言可以实现爬虫?

   1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。

   2.java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱且是python的头号劲敌。但是java实现爬虫代码较为臃肿,重构成本较大。

   3.c、c++:可以实现爬虫。但是使用这种方式实现爬虫纯粹是是某些人(大佬们)能力的体现,却不是明智和合理的选择。

   4.python:可以实现爬虫。python实现和处理爬虫语法简单,代码优美,支持的模块繁多,学习成本低,具有非常强大的框架(scrapy等)且一句难以言表的好!没有但是!

爬虫的分类?

  • 通用爬虫:就是将互联网上的所有网页下载到本地的服务器,形成备份。在进行对这些网页做相关的处理(提取关键字,去除广告),最后提供一个用户检索的接口。
    •   搜索引擎如何抓取互联网上的数据的?
      • 门户网站主动向浏览器提供网站的url
      • 搜索引擎公司和DNS服务商合作,获取网站的URL
      • 门户网站主动挂靠在一些知名网站的上 的友情链接中获取
  • 聚焦爬虫:聚焦爬虫就是根据指定的需求抓取网络上指定的数据。
  • 增量式爬虫:待补充!!!

反爬机制?

门户网站通过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取。

反反爬?

爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据。

robots.txt协议?

如果自己的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话,那么则可以通过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式可以观察淘宝网的robots(访问www.taobao.com/robots.txt即可)。但是需要注意的是,该协议只是相当于口头的协议,并没有使用相关技术进行强制管制,所以该协议是防君子不防小人。但是我们在学习爬虫阶段编写的爬虫程序可以先忽略robots协议。

 

标签:协议,python,简介,爬虫,robots,实现,门户网站
来源: https://www.cnblogs.com/wqzn/p/10438804.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有