标签:02 SparkContext Task 架构 TaskScheduler Executor Spark 资源管理
1. 为什么要引入Yarn和Spark。
答:(1)因为Yarn通用资源管理系统可以为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
(2)因为Spark基于内存运算,速度快;支持多语言;通用,可以处理批处理、交互式查询、实时流、机器学习和图计算;兼容性好,可以使用Hadoop的YARN作为它的资源管理和调度器。
2. Spark已打造出结构一体化、功能多样化的大数据生态系统,请简述Spark生态系统。
答:Spark生态系统包括,
(1)Spark Core,分布式大数据处理框架;
(2)Spark Streaming,数据流处理;
(3)Spark SQL,SQL查询;
(4)MLlib,机器学习;
(5)GraphX,图计算。
3. 用图文描述你所理解的Spark运行架构,运行流程。
答:
1、Driver创建SparkContext对象
2、SparkContext向资源管理器申请资源
3、资源管理器为Executor进程分配资源,并启动Executor进程
4、Executor进程向SparkContext申请Task
5、SparkContext根据RDD依赖关系构建DAG图,DAG图提交给DAGScheduler解析成Stage,然后把一个个TaskSet提交给底层调度器TaskScheduler处理,TaskScheduler向Executor返回Task
6、Executor运行Task,并向TaskScheduler和DAGScheduler返回运行结果
7、写入数据,释放资源
标签:02,SparkContext,Task,架构,TaskScheduler,Executor,Spark,资源管理 来源: https://www.cnblogs.com/ghy-blog/p/14530568.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。