标签:数仓 结构化 Hudi 处理 数据库 全栈 第十三章 数据
为什么会产生数据湖
数据量比较大,越来越不满足处理结构化的数据,比如说数仓,数仓就是处理结构化数据。什么是结构化数据,就是数据成数据库来的,传统型的数据库有:MySQL数据库、Oracle、SQLserver,从这些库里面过来的数据都是结构化数据。日志、json、xml是属于半结构化数据,结构化数据和半结构化数据就是当前数仓所做的功能。数据湖的产生就是为了解决非结构化数据和二进制数据,主要就是处理非结构化数据,非结构化数据主要是:图片、视频、音频。
数据湖的性能特点
1、新增支持特别快的新增和删除的功能
2、要有表的结构信息
3、本身就有小文件管理合并
4、保证语义等
Hudi介绍
Hudi将带来流式处理大数据,提供新数据集,同时比传统批处理效率高一个数据量级。
Hudi特性
1、快速upsert,可插入索引
2、以原子方式操作数据并具有回滚功能
3、写入器之间的快照隔离
4、savepoint用户数据恢复的保存点
5、管理文件大小,使用统计数据布局
6、数据行的异步压缩和柱状数据
7、时间数据跟踪血统
标签:数仓,结构化,Hudi,处理,数据库,全栈,第十三章,数据 来源: https://blog.csdn.net/weixin_45810046/article/details/117257913
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。