1，大数据概论

2022-02-28 19:32:59 阅读：147 来源： 互联网

标签：框架 MapReduce Hadoop 磁盘 Spark 数据资源管理概论

1.大数据概述

一.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。

1、HDFS（分布式文件系统）

提供分布式数据存储、集中管理功能，为hdaoop生态提供数据基础
2、MapReduce（分布式计算框架）

输入分片(input split)->map阶段->shuffle阶段->reduce阶段
大规模并行数据处理的数据模型，使程序运行在分布式系统
3、Yarn（分布式资源管理器）
YARN作为统一资源管理器，并在此基础上管理协调其他不同的各类框架，灵活分配合理调用
可以一个集群上的不同应用负载混搭，有效提高了集群的利用率。

二、对比Hadoop与Spark的优缺点。

表达能力

MapReduce使用Map和Reduce，难以描述复杂处理过程而Spark除Map和Reduce外，还支持RDD/DataFrame/DataSet等多种数据模型操作，编程模型更加灵活。

磁盘I/O效率

MapReduce直接对磁盘进行I/O，而Spark中间结果存储在内存中效率更高

任务延迟

MapReduce多次I/O增加上下文切换耗能，Spark基于DAG任务调度执行机制，不涉及磁盘IO延迟，迭代运算更快。

三.如何实现Hadoop与Spark的统一部署？

结合Yarn资源管理器基础，进行多种框架混合使用，可以用Spark框架替换MapReduce框架提高计算效率和计算的表达能力，并调整hadoop中其他框架与spark发生资源争夺的情况，降低资源抢占发生的概率。

标签：框架,MapReduce,Hadoop,磁盘,Spark,数据,资源管理,概论
来源： https://www.cnblogs.com/LuckZhang11/p/15947148.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

1，大数据概论

1.大数据概述

1.大数据概述

一.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。

二、对比Hadoop与Spark的优缺点。

表达能力

磁盘I/O效率

任务延迟

三.如何实现Hadoop与Spark的统一部署？