ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数仓数据漂移的理解

2021-05-17 20:00:17  阅读:568  来源: 互联网

标签:数仓 分区 业务 更新 理解 时间 time 数据 漂移


数据漂移的概念:
同一业务日期下的数据包含了不属于该业务日期的数据(上一天数据漂移到当天,或者当天数据漂移到下一天)或者缺失了该业务日期数据或该业务日期下的数据非最新
数仓常用4个时间介绍
(1)数据库表中用于记录具体业务过程发生时间的时间戳字段(假设这类字段叫create_time);
(2)数据库表中用来表示数据记录更新时间的时间戳字段(假设这类字段叫update_time);
(3)数据库日志表中用来表示数据记录更新时间的时间戳字段(假设这类字段叫log_time);
(4)标识数据记录被抽取到时间的时间戳字段(假设这类字段叫extract_time);
假设的场景:
一张订单业务表,按照上述某一个时间所对应的日期做分区,每个分区只存当天的数据
可能出现的问题及解决方案:
(1)以create_time抽取数据,用其对应的日期作为分区字段:
由于create_time为业务记录产生的时间,这个分区内只会有产生时刻的数据,对于不同更新策略所产生的问题也不同
①T+1更新:对于分区内所有产生更新的数据,都有1天的延迟,只有在T+2天才会更新T+1分区内的数据,且当天分区中会存在下一天数据,对于实时性及业务应用较高的情况下,影响较大
②H+1更新:若为每个分区覆盖写,每个分区更新的数据都有1小时的延迟,若为只当前时间分区插入,则每个分区更新的数据,不会产生更新
(2)以update_time对应的日期作为分区字段:
无论是T+1还是H+1更新,每个分区内只会有更新时间对应的日期的数,但是每个分区内会存在业务时间跨多天的数据
(3)以log_time对应的日期作为分区字段
对于操作记录表,操作记录是根据操作时间从前至后的,每个分区内会存在业务时间跨多天的数据
(4)工作中不常用
结合目前实际业务需求,工作中使用的方法:
对于有经常变更的业务数据,我们采用的办法是,维护一张同时具有T+1分区(全量)和一个H+1分区(当天更新)的业务表
其中,T+1分区用create_time限制创建时间小于当天的历史全量数据,这样可保证T+1分区皆为历史数据
H+1用update_time抽取更改时间为当天更改及新增全部的数据,这样可保证H+1分区中有变更的数据
在使用中结合历史数据与当天变更数据,以主键为分组用update_time倒序排列,取出每个主键唯一一条记录。
ps.此上为读《阿里巴巴大数据之路》数据漂移的一些浅显理解,并结合实际工作的一些感想,请多多指教~

标签:数仓,分区,业务,更新,理解,时间,time,数据,漂移
来源: https://blog.csdn.net/qq_43118086/article/details/116922402

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有