ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

大数据发展里程-Hadoop视角

2021-08-30 17:02:56  阅读:282  来源: 互联网

标签:视角 NoSQL MapReduce Hadoop Spark 数据 里程 分布式


周末查询了一些大数据相关的资料,今天简单以Hadoop的视角来总结一下我对大数据发展里程的总结:


2004:Google 发表大数据论文,  “三驾马车”横空出世

  1.     分布式文件系统 GFS

  2.     大数据分布式计算框架 MapReduce

  3.     NoSQL 数据库系统 BigTable


2006:Nutch 搜索引擎 分离出 Hadoop  

  Doug Cutting 将大数据相关的功能从 Nutch 中分离出来

  1.     HDFS,分布式文件存储

  2.     MapReduce,分布式计算引擎、资源调度框架


2007:陆续应用于 雅虎、百度、阿里 等企业

    Hadoop 应用于互联网大厂的大数据存储与计算


2008Hadoop 成为 Apache 顶级项目

  1. Cloudera 成立,运营 Hadoop 的商业公司

  2. Pig(Yahoo 开发)  脚本语言 转换为 MapReduce 任务

  3. Hive (Facebook 开发) 用 SQL 转换为 MapReduce 任务 

  4. Cassandra (Facebook 开发) 分布式 NoSQL 数据库


2011:Hadoop 生态逐步形成

  1. Sqoop 数据导入、导出工具

  2. Flume 日志分布式 收集、聚合、传输

  3. Oozie 工作流调度引擎

  4. HBase 基于 HDFS 的 NoSQL 系统

  5. Cassandra 分布式 NoSQL 数据库,逐渐流行


2012Yarn 资源调度系统

    Spark 开始崭露头角:源于 伯克利 AMP 实验室。

新概念引入:

  1. 批处理计算、大数据离线计算

    • 代表:MapReduce、Spark

  2. 大数据流计算、大数据实时计算

  3. 大数据分析与大数据仓库

  4. 大数据挖掘与机器学习


   本次总结粒度比较粗,面相对窄。后续我们继续

标签:视角,NoSQL,MapReduce,Hadoop,Spark,数据,里程,分布式
来源: https://www.cnblogs.com/higkoo/p/15206754.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有