ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Spark2.x精通:BlockManager原理剖析

2021-03-10 09:53:52  阅读:222  来源: 互联网

标签:BlockManagerMaster BlockManagerInfo 数据 Spark2 剖析 Executor BlockManager Block


一、概述


    之前的文章已经把Spark2.x的Mater启动、Worker启动注册、Driver启动、Executor启动、Task运行以及最重要的Shuffle原理部分都做了详细的剖析,整个流程中Task读写、Shuffle读写阶段都会涉及到BlockManager,那它是干啥的呢?其实BlockManager是Spark底层负责数据的读写和管理的一个模块。


    对于每一个Spark任务,Driver节点都会有一个BlockManagerMaster 实例,而每一个Executor上都对应的有一个BlockManager实例,它也构成了一套Master/Slaver架构的数据管理体系,比如ShuffleWriter都是通过将BlockManager将数据写入磁盘或者内容、各个Task在拉取数据的时候也是通过BlockManger建立连接,然后去拉取数据。


    这里我们先对BlockManager的原理做一个简单的介绍。

 

二、图解BlockManager整体架构

                   

图片


    下面详细讲解这个架构图:


1.由BlockManager原理架构图可以看出对于每个Spark任务,Driver都会初始化一个BlockManagerMaster实例,初始化同时也会创建一个BlockManagerMasterEndPoint实例,BlockManagerMasterEndpoint是一个ThreadSafeRpcEndpoint类,接收Executor中Blockmanager的消息请求,进行对应的处理。SparkEnv类中的实现代码如下:

   val blockManagerMaster = new BlockManagerMaster(registerOrLookupEndpoint(      BlockManagerMaster.DRIVER_ENDPOINT_NAME,      new BlockManagerMasterEndpoint(rpcEnv, isLocal, conf, listenerBus)),      conf, isDriver)


2.在BlockManagerMasterEndPoint中管理着一组HashMap数据结构BlockManagerInfo信息,保存着BlockManagerId与BlockManagerInfo的对应关系,这里相当于管理者每个Executor中的Block的元数据信息,比如各个BlockManager端新增、删除了一个Block后,这里对应也要更新对应的元数据信息,BlockManagerMasterEndPoint类实现代码如下:

  // Mapping from block manager id to the block manager's information.  private val blockManagerInfo = new mutable.HashMap[BlockManagerId, BlockManagerInfo]

  

3.BlockManagerInfo里面保存着所在Executor所有Block的状态信息,这里也是一个HashMap结构,保存着block与其BlockStatus信息,BlockManagerInfo类代码实现如下:

// Mapping from block id to its status.private val _blocks = new JHashMap[BlockId, BlockStatus]


    Driver端总结一下,其实就是通过BlockManagerMaster维护各个节点Block元数据信息,比如各个BlockManager端的Block发生增、删、改等操作,都会在这里进行更新。



4.在Executor端的都有一个BlockManager实例,它有四个比较重要的组件,这里大体介绍下,后面源码剖析会作详细介绍:


    1).DiskStore   

    负责磁盘数据的读写操作;


    2).MemoryStore 

     负责内存数据的读写操作;


    3).ConnectionManager:

    负责与其他的BlockManger连接,比如ShuffleReader阶段需要从远程拉取数据,这里负责远程的连接。


    4).BlockTransferService

    这里ConnectionManager与其他的BlockManger连接成功后,负责进行数据的传输。


5.BlockManager创建成功之后的第一件事就是去向BlockManagerMaster进行注册,此时就会在它的blockManagerInfo中添加对应的BlockManagerInfo信息。


6.这里有一点需要注意:BlockManager进行数据写操作时,优先将数据写入内存,如果内存不够会根据自己的算法,将内存中的部分数据写入磁盘。此外如果指定了relication副本,就会使用BlockManager将数据复制一份到其他的BlockManager中,所以就会存在一个Block会存在两个BlockManger的情况。


7.BlockManager进行数据读取时,比如ShuffleReader阶段,如果能从本地读取数据就从本地读,不然会通过ConnectionManager与远程BlockManager节点建立连接,连接成功后,BlockTransferService再去BlockManager节点获取数据。


8.只要是BlockManager端对数据进行了增、删、改操作,都会向BlockManagerMaster发送BlockStatus变更的消息通知,然后BlockManagerMaster会更新他自己维护的BlockManagerInfo元数据信息。



    以上就是BlockManager的整体架构原理,后面我们跟踪源码进行剖析,由于源码比较多,后面之分析重要的流程。感谢关注。


标签:BlockManagerMaster,BlockManagerInfo,数据,Spark2,剖析,Executor,BlockManager,Block
来源: https://blog.51cto.com/15080019/2653902

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有