ICode9

精准搜索请尝试: 精确搜索
  • Hadoop + Hive 数据仓库原理与架构2021-11-29 14:36:23

    1. Hive简介 Hive是什么Hive 构建在 Hadoop 之上,提供以下功能: 通过类 SQL 指令轻松访问数据的工具,从而实现数据仓库任务,例如:提取/转换/加载(ETL),报告和数据分析。 一种将结构强加于各种数据格式的机制。 直接访问存储在 HDFS 或其他数据存储系统(例如:HBase)中的文件。 通过Tez, Spa

  • 数据仓库理论知识2021-11-28 23:03:59

    一,数据仓库与数据集市 可以简单理解为数据仓库是面向整个企业,而数据集市是面向某个部门的。 数据集市的数据来自数据仓库,当然,如果没有数据仓库,数据集市的数据也可以直接取自业务数据库。 二,数据仓库分层 数据仓库分层并没有严格规定,是一种经验的积累和行之有效的数据仓库方

  • 微信 ClickHouse 实时数仓的实践之路2021-11-25 14:34:17

    ​微信作为一款国民级应用,已经覆盖了社交、支付、出行等人们生活的方方面面。海量多样化的业务形态,对数据分析提出了新的挑战。为了满足业务数据分析的需求,微信WeOLAP团队联手腾讯云,共建千台规模、数据 PB 级、批流一体的 ClickHouse 数据仓库,实现了10倍以上的性能提升。下文将

  • 数据仓库建模2021-11-25 14:04:13

    DataWareHouse数据建模 文章目录 DataWareHouse数据建模什么是数据建模?什么是数据模型?数据仓库模型的组成为什么需要数据模型?数据仓库的发展大致经历了三个过程 数据仓库数据模型架构最后引出什么是数据建模? 维度表的分类事实表维度表总结数据组织类型星型模型雪花模型星座

  • 【数据仓库】数据漂移的处理2021-11-23 19:06:15

    本文摘自《大数据之路:阿里巴巴大数据实践》。 数据漂移的处理 通常我们把从源系统同步进人数据仓库的第一层数据称为ODS或者staging层数据,阿里巴巴统称为ODS。数据漂移是ODS数据的一个顽疾,通常是指ODS表的同一个业务日期数据中包含前一天或后一天凌晨附近的数据或者丢失当天的

  • 大数据测试是什么、以及测试步骤2021-11-23 15:05:15

    一、大数据测试基本概念1、、什么是大数据?大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。 2、什么是BI?BI(Business Intellige

  • 数据仓库:维度分析和指标2021-11-20 12:33:34

    一、维度 介绍:指的是在分析一个问题的时候,可以从不同角度来看待,而这些角度就是维度,角度不同决定了维度不同维度的分类 定性维度:一般指的求 “每个” “各个” 等相关维度 在SQL上表示:一般都是放置group by中 定量维度:一般表示区间范围或者具体的值 SQL上表示:一

  • 第八章数据仓库2021-11-17 19:00:05

    一、加载日期数据至日期维度表 1.打开Kettle工具创建转换load_dim_date,并添加“生成记录”控件、“增加序列”控件、“JavaScript代码”控件、“表输出”控件以及Hop跳连接线。 2.配置“生成记录控件”,双击生成记录界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10

  • 数据清洗黑马程序员 第八章综合案例——构建DVD租赁商店数据仓库——作业(3)2021-11-17 11:03:11

    8.3.7 加载演员数据至演员维度表 1.打开Kettle工具,创建转换 使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示: 2.配置表输入控件 双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后

  • 大数据开发之数据仓库Hive2021-11-09 12:35:27

    1.数据仓库的基本概念 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同​​大数据培训​​时自身也不需要“消

  • 数据仓库数据分析2021-11-05 21:02:53

    目录 1 创建数据仓库2 创建Hive分区表3 数据分析3.1 统计总记录数3.2 统计非空记录数3.3 关键词分析3.4 uid分析 4 用户行为分析4.1 单击次数与rank之间的关系4.2 个性化行为分析 5 实时数据 1 创建数据仓库 我们的目标是在Hive中创建数据仓库,以便利用Hive的查询功能实

  • 熵简技术谈 | 熵简科技在资管数据中台的探索与实践2021-11-04 20:03:54

    导读:数据中台是熵简科技数据智能解决方案中的核心部分。引入数据中台可以打破数据与数据的界限、技术与业务的界限,为业务层的迭代提供更快的数据响应,真正做到业务数据化、数据资产化。 熵简科技在长期的实践过程中总结出了一套适用于资管机构的数据中台架构方案。本文将从数

  • 大数据开发之数据仓库架构分析2021-11-03 11:01:25

    ​  概述 架构是数据仓库建设的总体规划,从整体视角描述了解决方案的高层模型,描述了各个子系统的功能以及关系,描述了数据从源系统到决策大数据培训系统的数据流程。业务需求回答了要做什么,架构就是回答怎么做的问题。 架构的价值   ​   数据仓库架构 数据仓库的核心功能从源系

  • 数据仓库2021-11-02 21:03:30

    1.什么是数据仓库 数据仓库是面向主题的,集成的,和时间有关的,反应历史数据变化的数据集合。是给用户或者业务端提供策略支持的。 2.数据仓库基本特性 面向主题性:数据仓库中的数据都是围绕某一主题的 数据的集成性:将源数据经过抽取,筛选,清洗,最终集成到数据仓库中 数据的时变性:数据随

  • 2021-10-29 数据集市与数据仓库的区别2021-10-29 13:58:18

    2.3 数据集市与数据仓库的区别 - 知乎 (zhihu.com)2.3 数据集市与数据仓库的区别 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/600387471. 数仓:整体、详细,集团或企业级 2. 数据集市:局部、综合,可以从属于数仓

  • 数据仓库建模理论2021-10-28 23:31:03

    1、数仓建模的目标 访问性能: 能够快速查询所需的数据, 减少数据I/O; 数据成本: 减少不必要的数据冗余, 实现计算结果数据复用, 降低大数据系统中的存储成本和计算成本; 使用效率: 改善用户应用体验, 提高使用数据的效率; 数据质量: 改善数据统计口径的不一致性, 减少数据计算错误的可能

  • Hive 企业应用2021-10-22 22:04:41

    一、数据仓库架构设计 数据仓库的主要工作就是ETL(Extract-Transform-Load) 用来描述数据从来源经过装载、抽取、转换到目的端的过程 数据仓库架构设计,即为公司针对自身业务场景实现的水平分层、垂直分主题的数据仓库构建过程的顶层设计。 1、数据架构 架构原则:先水平分层,再垂直

  • 数据仓库概述2021-10-20 21:00:04

    数据仓库概述 数据仓库(Data Warehouse),简称DW或DWH,是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理、运营决策。 面对主题的:数据仓库里的数据面向主题作为大分类,例如用户分析主题、流量分析主题

  • Chapter6 数据仓库Hive2021-10-14 22:03:19

    6.1数据仓库概念 6.1.1什么是数据仓库 数据仓库:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 数据仓库的目的:支持企业内部的商业分析和决策,让企业可以基于数据仓库的分析结果作出相关的经营决策。 数据仓库的典型体系结构: 数据

  • 什么是数据湖 Data Lake2021-10-14 10:01:30

    什么是数据湖 Data Lake ? 背景:随着近几年机器学习的兴起对数据的需求更加灵活,如果从数据仓库中提数会有一些问题。比如:数据都是结构化的(做算法的经常要理解数仓模型,甚至要深入到做了什么业务处理,很多处理都不是他们想要的);数据是经过处理的可能并不是算法想要的结果;算法同学与数

  • 一文读懂数据仓库2021-10-14 09:33:13

    数据仓库 数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的大型数据库,它的数据基于事务型的关系数据库。 数据仓库中的数据是相对稳定的、集成的、面向主题的、反映历史变化的,以分析需求为目的数据集合。 数据集市 数据集市是

  • 数据库 与 数据仓库的本质区别是什么?2021-10-14 08:31:55

    作者:陈诚链接:https://www.zhihu.com/question/20623931/answer/139842331来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OL

  • 数据仓库_数据建模_指标体系2021-10-13 18:01:22

    目录 0 文章说明 1 概念 0 文章说明         文章内容主要来自网络,加上自己的修改,无法找到来源,如有侵权请告知. 1 概念 (1) 业务板块:比数据域更高维度的业务划分方法,适用于庞大的业务系统. (2) 维度:维度模型主张从分析决策的需求出发构建模型,为分析需求服务.维

  • ETL讲解(很详细!!!)2021-10-12 00:00:43

    ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接

  • 数据仓库介绍与实时数仓案例--阿里2021-10-08 23:34:25

    1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有