ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

01.初探爬虫

2021-01-24 15:58:22  阅读:154  来源: 互联网

标签:01 网站 门户网站 抓取 爬虫 初探 数据


文章目录

初探爬虫

写在前面

好久,没见!你好,我是禅墨

2020是不幸的一年,还好已经过去,现在是2021!这是一个新的教程系列,就叫做爬虫与局子吧,哈哈哈!更新周期呢,得看心情,毕竟现在也是在复习!

去年做了一个Python进阶系列,只发了第一阶段的学习文章,其实后面的几个阶段,也早就已经写好,只是由于种种原因没有来的及发,呃~~,好吧种种原因就是“懒”!后续我会依次上传的,

先来思考以下几个问题

1.你是否在夜深人静的时候,想看一些会让你更加睡不着的图片…

2.你是否在考试或者面试前夕,想看一些具有针对性的题目…

3.你是否想在杂乱的网络世界中获取你想要的数据…

什么是爬虫

通过编写程序,模拟浏览器上网,然后就让其去互联网上抓取数据的过程。
重点:模拟浏览器 抓取(整体与局部)

爬虫的价值

–懂得都懂

爬虫合法性探究

  • -爬虫在法律中不被禁止
  • -具有违法放风险(公开性信息合理),利用爬虫攻击后台窃取后台数据即为违法
  • -分为善意爬虫和恶意爬虫
    爬虫带来的风险体现在以下两个方面:
    1.爬虫干扰了被访问网站的正常运营
    2.爬虫抓取了受到法律保护的特定类型的数据或信息
  • 如何避免进局子厄运?
    1.时常优化自己的程序,避免干扰被访问网站的正常运行
    2.在使用中,传播爬取到的数据时,审查抓取的内容,如果发现了涉及到用户隐私商业机密等敏感内容需要及时停止爬取及传播

爬虫在使用场景中分类

1.通用爬虫:
抓取系统重要组成部分。抓取的是译者肮脏页面数据‘
2.聚焦爬虫:
是建立在通用爬虫基础上,住区页面中特定的局部内容
3.增量式爬虫
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据

反爬机制

门户网站,可以通过指定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取

反反爬策略

爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬虫机制,从而可以获取门户网站的数据

robots.txt君子协议

规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取。

标签:01,网站,门户网站,抓取,爬虫,初探,数据
来源: https://blog.csdn.net/qq_44090770/article/details/113091717

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有