前言: model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定了数仓能支撑企业业务多久。 为什么大多数企业,数仓都要重建,这不仅仅是业务拓展、发展迅速,很大一部分是因为模型建的很烂。 01. 基本概念 维度建模,是数据仓库大师Ralph Kimball提出的,是数据仓库工
协作翻译 原文:What is ETL: Extract, Transform, Load 链接:https://www.datamation.com/big-data/what-is-etl-extract-transform-load.html 译者:liyue李月, 正_午, ZICK_ZEON 提取、转换、加载(ETL)是一个成熟的过程,它使组织能够利用不同的数据,而不管数据驻留在何处或存储数据的
1、数据挖掘定义 把数据库中大量数据背后隐藏的重要信息抽取出来,然后为公司创造很多潜在的利润,针对这种海量数据库中挖掘数据信息的技术称为数据挖掘(DM)。 2、数据挖掘的分类 按照数据库种类:关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘
目录 1、概述总线架构一致性维度一致性事实 2、总线架构demo小结 1、概述 在Kimball的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概念:总线架构(Bus Architecture),一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。 总线架构 多维体系结构(总线架构)
1、数据仓库介绍 数据仓库(DW):可以满足管理人员的决策分析需要,在数据库基础上产生了满足决策分析需要的数据环境。 传统数据库和数据仓库比较比较内容 传统数据库 数据仓库 数据内容 当前数据 历史的、存档的、归纳的、计算的 数据目标 面向业务操作员,重
关于数仓的简单形象介绍 1. 什么是数据仓库 1.1 数据仓库的概念官方定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。 这个定义的确官方,但是却指出了数据仓库的四个特点。 特点 面向主题:数据仓库都是基于某个明确
Hive概述 产生背景 MapReduce编程的不便性传统RDBMS人员的需求 HDFS上的文件并没有schema的概念 Hive是什么 由Facebook开源,用于解决海量结构化日志的数据统计问题构建在Hadoop之上的数据仓库(可以理解为数据存在在HDFS,可以通过MapReduce进行计算,提交在YARN上运行的)Hive提
本文在InfoQ首发 :https://www.infoq.cn/article/P4mMBeVarMWb8kKsdM6M 编者按:《透过数字化转型再谈数据中台》系列连载 6-8 篇左右,作者结合自己在数据中台领域多年实践经验,总结了数据架构知识、BI 知识,以及分享给大家一些产业互联网实施经验。本文是系列文章中的第三篇。 在前面
摘要:众所周知,数据量大了之后,性能是大家关注的一点,所以我们在业务开发的时候,特别关注性能,做为一个架构师,必须对性能要了解,要懂。才能设计出高性能的业务系统。 一、GaussDB分布式架构 所谓集群是将多台物理服务器组建成一个逻辑平台,对外展现一个集群平台的形式。 所谓分布式架
SIGMOD数据管理国际会议(Special Interest Group on Management Of Data.)是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议,所收录的论文代表了行业内的最高水平。会议的目的是在全球范围内为数据库领域的研究者、开发者以及用
大数据入门知识总结 一、大数据部门及流程二、数据仓库1、数据仓库的基本概念2、数据仓库的主要特征3、数据仓库与数据库区别5、数据仓库——ETL 三、Hadoop——HDFS分布式存储系统1、Hadoop简介2、HDFS、Yarn、MapReduce3、Hadoop集群搭建4、HDFS的概述5、HDFS的Shell命令
关注公众号:Java大数据与数据仓库,回复“资料”,领取资料,学习大数据技术。 经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。
经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。 hadoop Hbase Hive Spark Flink Kafka Hadoop 是大数据的基础组件,很多组件都
今日客户对这些个概念不清楚,让我解释解释。 说实在的,虽然对各概念都有印象和理解,但我也不能完完全全地辨析得很清晰。 作为从业者,还是有必要拎清一点。 1 数据中台 网易数帆 定义 数据中台: 整合数据技术、产品技术能力,提供统一的数据和服务,强力支撑前台业务。 特点 统一
目前整个过程的核心是flink 批处理选择用pyflink 流处理选择用java+flink 当然之所以这么选择,是跟我的技术栈有关。因为本人之前一直从事离线数仓的工作,批处理一直选择的脚本语言包括python,perl,甚至是kettle脚本。遇到实时数据处理,通常是springboot下面的 消息订阅机制(activ
必须设置外键VS不要设置外键的争论数据库表到底要不要设置外键约束,一直具有非常大的争议。我认为完全没有必要非黑即白,存在即合理。这两种争论的产生根源在于它们都有各自的使用场景和理由,并不是纯理论的空想。所以最好的方式是根据项目类型、业务场景进行决策,甚至可以两种方式混
数据集成 数据集成是指集成自治、异质的数据源中的数据,为用户提供一个统一全局模式,实现数据共享的问题。数据集成通常有两种实现技术:虚拟(virtual)技术和仓库(warehousing)技术。两种技术都涉及一个关键问题——如何发现数据源系统模式与目标全局模式之间的语义对应关系,来满足
你需要知道的ETL基础知识## 信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。据统计,数据量每经过2-3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更
本书于2003年出版,至今已经接近20年历史,很多东西可能与当今技术的发展不相符,但是看完第一章维度建模初步,我觉得有助于我了解数仓的一些基本知识与维度建模的基本构建过程,适合我这种刚开始接触数仓的菜鸟,本篇博客是本书的读书笔记,若出现的内容与当今情况不符,望各位不吝赐教。 第一
** OLTP和OLAP的区别 ** 联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。 OLTP的特点一般有: 1.实时性要求高。我记得之前上大学的时候,银行异地汇款,要隔天才能到账,而现
目录 一、前言 二、关于内推or猎头or招聘软件的选择 三、面试形式 四、面试流程选择 五、面试点 六、结尾 一、前言 笔者是19届硕士,以接近硕2的工作经验进行了毕业以来第一次社招的面试,最终结果还不错。经历这两个月的面试,笔者发现在数据仓库、数据开发的面试中,各个公司考察的
文章目录 1. 数据库的三大范式2. 数据仓库建模方法2.1 ER 模型2.2 维度建模 3. OLAP 和 OLTP 的区别4. 数据仓库的基本架构5. 数据库和数据仓库有什么区别?6. 数据仓库的分层6.1 ODS 层6.2 DW 层6.3 ADS 层 7. 数据仓库为什么要进行分层? 1. 数据库的三大范式 推荐阅读:数据
前言随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识
数据库:是OLTP(联机事务处理)应用的场景,其存储的主要是与业务直接相关的数据,强调准确、低时延、高并发,如果没有特别强调,基本上数据库里只会去存储与业务相关的数据。 数据仓库:OLAP(联机分析处理)是数据仓库系统的主要应用,其支持的对象只要是面向分析场景的应用,提供结构化的、主题化的数
在美团点评酒旅事业群内,业务由传统的团购形式转向预订、直连等更加丰富的产品形式,业务系统也在迅速的迭代变化,这些都对数据仓库的扩展性、稳定性、易用性提出了更高要求。对此,我们采取了分层次、分主题的方式,本文将分享这一过程中的一些经验。 技术架构 随着美团点评整体的系统架