首页 > 其他分享> 文章详细

HDFS的读写流程

2021-10-28 13:32:56 阅读：157 来源： 互联网

标签：HDFS 副本读写节点 DataNode NameNode 流程 Block 客户端

HDFS的写数据流程

客户端需要上传文件，客户端就会创建一个Distributed FileSystem，向NameNode请求上传文件。
此时，NameNode要检查，该客户端是否有权限进行操作。然后开始检查目录结构能否创建成功。检查完成后，Namenode就会响应，通知客户端上传文件。
客户端此时会请求上传第一个Block,需要NN返回DataNode，告知客户端上传的位置。
NN会返回几个DataNode，例如返回了3个节点。表示告知客户端要用返回的三个节点存储数据。
此时HDFS客户端会创建一个FSDataOutPutSystream，用该流来传输数据。创建完成后，首先先向第一个DataNode，请求建立传输通道。（注意：此时我们只需要向一个DataNode建立即可，该DataNode会与剩下的DataNode建立通道。即我们只需要将数据传输给第一个Node，之后客户端就可以关闭，让DataNode与DataNode之间传递数据（创建副本））
所有DataNode建立好传输通道，就回头输出应答结果，当应答结果传递给客户端，客户端就开始传递数据
客户端传递数据，传递数据的大小是以package为单位一个包是64k，而一个包中含有很多个chunk，每一个chunk由512byte的数据以及一个4byte的统计量构成。即数据先组装成chunk，再组装成包，最后依次去填满。（一次传递一个Block）
传输完成（一个block）后，若还有Block需要你传递，重复2-7 。若已经完全完成。客户端会通知NameNode，此时客户端可以关闭。DataNode1拿到了数据，此时可以向别的DataNode传递副本信息。

那么在HDFS写数据的过程中，NameNode会选择上传到数据最近距离的DataNode节点。

节点的距离：两个节点到达最近的共同祖先的距离总和。

选择好主要的存储节点后，我们需要选择副本节点。

第一个副本会在Client所处的节点上，如果客户端在集群外，随机选一个。

第二个副本在另一个机架的的随机一个节点（保证可靠性）

第三个副本（如果有）在第二个副本所在的机架的随机节点。（保证效率）

HDFS的读数据流程

客户端通过创建DistributedFileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNdoe地址。
选择一台DataNode（就近原则）服务器，请求读取数据。
DataNode开始传输数据给客户端（从磁盘里面读取数据流，以包为单位校验）
客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

如果一个文件是大于一个Block的。那么此时需要注意，在DataNode里，我们并不是Block1和Block2一起读的。而是先读到第一个Block，再读第二个Block，进行组装。

标签：HDFS,副本,读写,节点,DataNode,NameNode,流程,Block,客户端
来源： https://blog.csdn.net/Chengzheng119/article/details/121011880

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

HDFS的读写流程