mapreduce、spark、tez区别

2021-10-30 12:31:55 阅读：194 来源： 互联网

标签：Map DAG tez Reduce mapreduce MapReduce Tez spark

MapReduce
MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

Tez
Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

Spark
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Tez和Mapreduce
核心思想：MapReduce将一个算法抽象成Map和Reduce两个阶段进行处理；Tez将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等
依赖DAG：Mapreduce没有DAG一说，Tez将map和reduce阶段拆分成多个阶段，分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业
落地磁盘：MapReduce会有多次落地磁盘；Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少
Tez和Spark区别
使用场景：spark更像是一个通用的计算引擎，提供内存计算，实时流处理，机器学习等多种计算方式，适合迭代计算；tez作为一个框架工具，特定为hive和pig提供批量计算
运行模式：spark属于内存计算，支持多种运行模式，可以跑在standalone，yarn上；而tez只能跑在yarn上；虽然spark与yarn兼容，但是spark不适合和其他yarn应用跑在一起
资源利用：tez能够及时的释放资源，重用container，节省调度时间，对内存的资源要求率不高；而spark如果存在迭代计算时，container一直占用资源；
————————————————
版权声明：本文为CSDN博主「L13763338360」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/L13763338360/article/details/106912743/

标签：Map,DAG,tez,Reduce,mapreduce,MapReduce,Tez,spark
来源： https://www.cnblogs.com/lilei2blog/p/15484757.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

mapreduce、spark、tez区别