ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【阿里巴巴大数据实践笔记】第12章:元数据

2019-06-12 10:00:55  阅读:213  来源: 互联网

标签:12 阿里巴巴 数据仓库 建模 应用 SQL 数据 ETL


1.元数据定义

元数据( Metadata )是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。

元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。 

2.元数据价值
例如在计算上可以利用元数据查找超长运行节点,对这些节点进行专项治理,保障基线产出时间。

例如可以利用元数据构建知识图谱,给数据打标签,清楚地知道现在有哪些数据。

在数据应用方面打通产品及应用链路,保障产品数据准确、及时产出。例如打通 MaxCompute 和应用数据,明确数据资产等级,更有效地保障产品数据。

数据的真正价值在于数据驱动决策,通过数据指导运营。可以用于指导数据相关人员进行日常工作,实现数据化“运营”。 比如对于数据使用者,可以通过元数据让其快速找到所需要的数据;对于 ETL 工程师,可以通过元数据指导其进行模型设计、任务优化和任务下线等各种日常 ETL 工作;对于运维工程师,可以通过元数据指导其进行整个集群的存储、计算和系统优化等运维工作。 

应用链路分析:通过应用链路分析,产出表级血缘、字段血缘和表的应用血缘。其中表级血缘主要有两种计算方式:一种是通过 MaxCompute 任务日志进行解析;一种是根据任务依赖进行解析。

数据建模:传统的数据仓库建模一般采用经验建模的方式,效率较低且不准确。基于现有底层数据已经有下游使用的情况,我们可以通过下游所使用的元数据指导数据参考建模。

表和字段的查询次数、关联次数、聚合次数、过滤次数、产出时间。基于 主从表的 字段使用情况 ,可以确定哪些字段进入目标模型。

基于表的字段元数据,如字段中的时间字段、字段在下游使用中的过滤次数等 ,选择业务过程标识字段(PI或PPI)。

查询指 SQL 的 SELECT , 关联指 SQL 的 JOIN ,聚合指 SQL的 GROUP BY , 过滤指 SQL 的 WHERE 。

 ETL运维:资源、下线无访问的任务。

 

标签:12,阿里巴巴,数据仓库,建模,应用,SQL,数据,ETL
来源: https://www.cnblogs.com/badboy200800/p/11007878.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有