ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Hadoop生态圈

2021-02-12 17:32:20  阅读:239  来源: 互联网

标签:MapReduce Hadoop Cutting 集群 Apache 数据 生态圈


1)Hadoop历史
雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎
所需的全部工具。包括全文搜索和Web爬虫。
随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司
为了存储海量搜索数据而设计的专用文件系统。
2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。
2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型,用于大规模数据集(大于
1TB)的并行分析运算。
2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。
2006年,Yahoo雇用了Doug Cutting,Doug Cutting将NDFS和MapReduce升级命名为Hadoop,Yahoo开建了一个
独立的团队给Goug Cutting专门研究发展Hadoop。
Google和Yahoo对Hadoop的贡献功不可没。

总结:
NDFS--->HDFS
MapReduce

2)项目定义
Apache™Hadoop®项目用于可靠,可扩展的分布式计算的开源软件。
Apache Hadoop是一个大数据处理框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。
Apache Hadoop可以从单个服务器扩展到数千台计算机
Apache Hadoop集群中每台计算机都提供本地计算和存储。
Apache Hadoop集群不是依靠硬件来提供高可用性,而是设计了用于检测和处理应用程序层的故障,从而在计
算机集群之上提供高可用性服务

总结:
开源软件
大数据处理架构
单台服务可以,数千台服务器
每台服务器都存自己的数据及运算自己的数据
把硬件故障认为常态,通过软件把控故障

3)核心项目
Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
Hadoop YARN:作业调度和集群资源管理的框架。
Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。
Hadoop Common:支持其他Hadoop模块的常用实用程序。
Hadoop Ozone: Hadoop集群所提供的对象存储。

4)相关项目
Apache的其他Hadoop相关项目包括:
Ambari™
基于Web的工具,用于配置,管理和监控Apache Hadoop集群,包括对Hadoop HDFS,Hadoop
MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支持。
Ambari还提供了一个用于查看集群运行状况的仪表板,例如热图,以及可视化查看MapReduce,Pig和
Hive应用程序的功能,以及以用户友好的方式诊断其性能特征的功能。

Avro™
数据序列化系统。

Cassandra™
可扩展的多主数据库,没有单点故障。

Chukwa™
用于管理大型分布式系统的数据收集系统。

HBase™
可扩展的分布式数据库,支持大型表的结构化数据存储。

Hive™
一种数据仓库基础架构,提供数据汇总和即时查询。

Mahout™
可扩展的机器学习和数据挖掘库。

Pig™
用于并行计算的高级数据流语言和执行框架。

Spark™:
用于Hadoop数据的快速通用计算引擎。Spark提供了一种简单而富有表现力的编程模型,支持广泛的应用程
序,包括ETL,机器学习,流处理和图形计算。

Tez™
基于Hadoop YARN构建的通用数据流编程框架,它提供了一个功能强大且灵活的引擎,可以执行任意DAG任务
来处理批量和交互式用例的数据。Tez正在被Hadoop生态系统中的Hive™,Pig™和其他框架以及其他商业软件
(例如ETL工具)采用,以取代Hadoop™MapReduce作为底层执行引擎。

ZooKeeper™
用于分布式应用程序的高性能协调服务。

总结:
核心项目 hdfs mapreduce yarn
相关项目 ambari hbase hive spark zookeeper

标签:MapReduce,Hadoop,Cutting,集群,Apache,数据,生态圈
来源: https://www.cnblogs.com/weiyangchen/p/14399019.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有