ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Hudi特性之表格式 (1)

2022-01-03 13:35:54  阅读:164  来源: 互联网

标签:文件 Hudi 之表 更新 查询 快照 格式 数据


在大数据中扮演重要角色的Hudi,其表格式和查询方式有何特殊之处?他是怎样进行数据的插入更新处理?
首先,Hudi有两种处理数据的表格式:
COW(Copy On Write)
MOR(Merge On Read)


1、COW(Copy On Write)

  • 支持快照查询,增量查询
  • 处理数据过程:仅使用专门的列式文件存储数据(如:parquet)。 在写入和更新过程中执行同步合并,简单地更新版本和重写文件。
  • 因为每次更新操作都会重写整个文件,存在写放大的问题。
    在这里插入图片描述

2 、MOR(Merge On Read)

  • 支持快照查询,增量查询,读优化查询
  • 使用柱状(如parquet) +基于行(如avro)的文件格式组合存储数据。
  • 处理数据过程:每次upsert时会生成一个delta日志,将每个文件的更新数据存储到日志中,在查询时将日志应用到每个文件 ID 来支持快照查询。
  • 因此,这种表类型会平衡读和写放大,以提供接近实时的数据。
  • 在读表上进行合并的目的是直接在DFS之上支持接近实时的处理,而不是将数据复制到可能无法处理数据量的系统。
    在这里插入图片描述
    以一次数据的insert和updata为例。我利用hudi在插入一次mor格式的表保存hive和hdfs,修改数据对表进行更新updata,在hadoop的50075端口中浏览文件,可以看到如下图
    在这里插入图片描述
    第一行数据就是生成的log,在进行查询读取时,会将log与数据文件合并读取,提供实时的数据。

3、COW和MOR对比

COWMOR
数据延迟HigherLower
查询延迟LowerHigher
更新成本HigherLower
Parquet文件大小SmallerLarger
写放大HigherLower

标签:文件,Hudi,之表,更新,查询,快照,格式,数据
来源: https://blog.csdn.net/weixin_52268321/article/details/122285810

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有