ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

离线数仓(一)认识数据仓库

2021-06-08 23:00:33  阅读:630  来源: 互联网

标签:分析 数仓 存储 -- 数据仓库 数据库 离线 数据


1.数据管理中心

1.1.数据库

引用百度百科的解释:数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

  1. 数据库是长期储存在计算机内、有组织的、可共享的数据集合。
  2. 数据库中的数据指的是以一定的数据模型组织、描述和储存在一起。
  3. 具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。

1.2.数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库之父比尔·恩门(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受--数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。

表现在:

  1. 面向主题:在较高层次上将企业信息系统的数据综合归并进行分析利用的抽象的概念。每个主题基本上对应一个相应的分析领域。
  2. 集成的:企业级数据,同时数据要保持一致性、完整性、有效性、精确性
  3. 稳定的:从某个时间段来看是保持不变的,没有更新操作、删除操作,以查询分析为主
  4. 反应历史变化

 

1.3.数据库和数据仓库对比

功能数据仓库数据库
数据范围存储历史的、完整的、反应历史变化的数据当前状态的数据
数据变化可添加、无删除、无变更的、反应历史变化支持频繁的增、删、改、查操作
应用场景面向分析、支持战略决策面向业务交易流程
设计理论不遵守范式、适当冗余遵照范式、避免冗余
处理量非频繁、批量大、高吞吐、有延迟频繁、批量小、高并发、低延迟

面向业务的数据库常称作OLTP系统,关注增删改事务操作,面向分析的数据仓库亦称为OLAP,关注查询分析。

 

1.4.数据中心

引用维基百科的解释:数据中心,指用于安置计算机系统及相关部件的设施,例如电信和储存系统。一般它包含冗余和备用电源,冗余数据通信连接,环境控制(例如空调、灭火器)和各种安全设备。

数据中心,顾名思义就是数据的中心,是处理和存储海量数据的地方,英文全称为DataCenter。用专业的名词解释,数据中心是全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。

一般来讲,数据中心主要有几大部分构成:机房、供配电系统、制冷系统、网络设备、服务器设备、存储设备、环境控制设备等。

 

1.5.数据平台

数据平台,一般叫做数据处理平台,不是一个专门被设计用来解决数据存储问题的,一个完整的数据平台包括一些关键架构设计:

  1. 数据采集
  2. 数据存储
  3. 数据处理
  4. 数据流转
  5. 数据应用

除了提供基本的数据存储功能以外,还要提供 数据采集,数据处理,数据应用等相关功能!这是数据平台和数据库或者数据仓库不同的地方!

 

1.6.数据湖

引用维基百科的解释:数据湖(英语:data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统[1]。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表,可视化,数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML,JSON),非结构化数据(电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。

数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据(关系数据库数据),半结构化数据(CSV、XML、JSON等),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频),从而形成一个容纳所有形式数据的集中式数据存储

数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求的特点,MPP数据库+Hadoop集群+传统数据仓库这种“混搭”架构的数据湖也越来越多出现在企业信息化建设规划中。

数据湖的就是原始数据保存区.虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS叫做数据仓库(广义),即存放所有数据的地方,而国外一般叫数据湖(datalake)

数据湖和数据仓库的区别:

特性数据仓库数据湖
数据来自业务系统,运营数据库和业务应用程序的关系数据来自IOT设备,网站,移动应用,社交媒体,企业应用程序的非关系和关系数据
Schema设计在数据仓库实施之前(写模式)写入在读取数据分析时(读模式)
性价比更快查询结果会带来较高存储成本更快查询结果只需要较低存储成本
数据质量可作为重要事实一句的高度监管数据任何可以或无法进行监管的数据(原始数据)
用户数据分析师数据科学家,数据开发人员,业务分析师
分析批处理报告,BI,可视化机器学习,预测分析,数据发现和分析

 

 

1.7.数据中台

所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力,主要包括数据模型,数据服务,数据开发三个方面的,解决企业的生产效率和团队协作的问题。

核心思想:OneData OneService

核心价值:经验沉淀 场景驱动

核心优势:避免重复建设,统一服务接口 沉淀通用能力,前台减负

团队组成:业务团队 数据团队 算法团队 工程团队

 

1.8. 发展趋势

文件 --> 数据库 --> 数据仓库 --> 数据平台 --> 数据中台

 

2.数据仓库发展历程

 

标签:分析,数仓,存储,--,数据仓库,数据库,离线,数据
来源: https://blog.csdn.net/Yuan_CSDF/article/details/117717597

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有