ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

(原创)大数据 数仓基本概念梳理

2021-12-15 20:33:03  阅读:240  来源: 互联网

标签:数仓 离线 主题 数据仓库 梳理 应用层 下单 数据 基本概念


 

一、大数据的基本概念

  其实到目前为止对于大数据的数据量的多少还是一个可变定义,主观定义,即并不是要大于一个特定数据的TB,才叫大数据,包括在做的项目中,有的客户因场景需求即使几TB的数据仍然需要建立大数据体系来提供价值。所以这就体现了数据的属性,如行业属性,历史属性,价值属性等等。

二、大数据的结构

大数据简单来说一般可分为3层结构

1,  数据采集层

2,  数据计算层 

3,  数据应用层

 每三层又可细分为若干个动作

1.数据采集层可分为:

  数据来源层(掌握数据的来源如日志,数据库,图片等等)

  数据传输层(负责数据的传输,抽取等当前主流的框架有flume等)

  数据存储层(将数据存储在文件数据库或HBase等)

2.数据计算层可分为:

  资源管理层(提升集群利用率、资源统一管理和数据共享,主流工具有YARN等等)

  数据分析层(解决海量数据的离线或实时运算,主流框架有MapReduce离线计算,Storm离线计算 )

  任务调度层(一个能把多个MR作业组合为一个逻辑工作单元(一个工作流),从而自动完成任务调用的工具)

2. 数据应用层可分为:

  为多种大数据应用直接提供数据源  

 (只是找了些主流的组件,可根据不同业务场景替换)

 

三、数据仓库

1、数据仓库是什么?

  数据仓库是大数据的底座,这里是指除了物理服务器之外的数据底座。

  数据仓库是一个面向主题的,集成的,相对稳定的,反应历史的数据集合,

2、数据仓库的价值及意义:

一,支持管理决策,面向分析型数据处理,不同于企业现有的交易型,操作型数据库

二,数据仓库是对多个异构数据源的有效集成,并按照主题进行重组

三,数据仓库是把信息及时交给所需要的这些信息的使用者,使之作出改善其业务经营决策,发挥意义和价值,信息重组是数据仓库的根本任务

四、数据仓库分层(五层):

ODS:原始数据层-直接存放原数据,不做任何处理,如日志,操作记录,事件记录等

DWD:明细数据层-对原始数据进行清洗如(去空,超过极限的数据,脱敏等)

DWS :数据服务层-以数据明细层为基础,按天进行轻度汇总(每天的数据量,销售量等)

DWT:主题数据层  以DWS数据服务层为基础,按主题进行汇总,获得每个主题的全量数据表

ADS:(专题库)数据应用层面向实际的数据需求,为各种统计表报提供数据

 五、构建(建模)思想:

1,原始数据层-备份-追溯-分区,压缩

2,数据明细层-构建维度模型(星形模型)

3,服务数据层-服务于主题数据层(DWT)的主题宽表,该表字段是站在不同的视角去看事实表

4,主题层(主题宽表) 站在维度表的角度去看事实表,重点关注事实表度量的累计值。首次时间,末次时间如(首次下单时间,末次下单时间,累计下单金额,累计下单量等等)

5,数据应用层-对个主题的指标分析,提取

标签:数仓,离线,主题,数据仓库,梳理,应用层,下单,数据,基本概念
来源: https://www.cnblogs.com/qujq/p/15691693.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有