ICode9

精准搜索请尝试: 精确搜索
  • 5. 业务数仓理论2022-05-20 22:03:06

    一、表的分类 1.实体表:一个现实存在的业务对象(用户表) 2.维度表:对应一些业务状态(订单状态) 3.事务型事实表:一旦发生不会再变化(交易流水) 4.周期性事实表:随着业务发生不断产生的数据(订单) 二、同步策略 1.数据同步类型:全量表、增量表、新增及变化表 全量表:存储完整的数据 增量表:存

  • 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(下)2022-05-19 23:00:07

    数据导入 总览 概述 数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到StarRocks中,方便查询使用。StarRocks提供了多种导入方式,用户可以根据数据量大小、导入频率等要求选择最适合自己业务需求的导入方式。 离线数据导入,如果数据源是Hive/HDFS,推荐采用Broker Load导入

  • 【数仓项目记录4】全流程调度及可视化2022-05-14 19:01:27

    全流程调度器部署 1.不同层数据装载脚本之间存在依赖关系 2.业务数据每天都产生,因此脚本每天都要执行--定时问题 可以考虑使用ooize、Azkaban,Ooize是重量级的任务调度系统,配置更复杂,配合界面UI使用 说到定时——想到linux中的crontab命令 crontab命令详解 命令格式: crontab [-u us

  • 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(中)2022-05-14 01:31:44

    概述 背景 Apache Doris官方地址 https://doris.apache.org/ Apache Doris GitHub源码地址 https://github.com/apache/incubator-doris Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构

  • 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(上)2022-05-12 23:04:37

    概述 背景 Apache Doris官方地址 https://doris.apache.org/ Apache Doris GitHub源码地址 https://github.com/apache/incubator-doris Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构

  • 互联网用户画像,精准营销,数仓有妙招2022-05-11 15:04:29

    摘要:通过GaussDB(DWS)的Roaringbitmap功能,实现用户画像,精准营销功能。 本文分享自华为云社区《互联网用户画像,精准营销,GaussDB(DWS)来支招》,作者: fudgefactor。 目前在互联网、教育、游戏等行业都有实时精准营销的需求。通过系统生成用户画像,在营销时通过条件组合筛选用户,快速提取

  • 数仓分层2022-05-10 10:03:27

    数据仓库分层 来源 https://www.bilibili.com/video/BV1t54y1r7Mc?p=79 参考文章:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/122426579 数仓建模:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/122402191 离线数仓 所谓数仓建模:就是应该建哪些表,表与表之间的关

  • 数据仓库(9)数仓缓慢变化维度数据的处理2022-05-06 21:31:23

      数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。   这里

  • 【数仓项目记录3】业务数据采集2022-05-02 12:32:09

    电商常识 业务表,与用户的操作相关,如添加收藏夹、购物车,下单,支付,退单、退款、评价、领优惠券等 后台管理系统面向公司内部开发者,维护商品信息、优惠信息等 业务数据的生成 使用项目提供的jar包生成某一日期下的数据,数据存储到hadoop102中的数据库中 Sqoop Sqoop是Hadoop和关系

  • 解析数仓OLAP函数:ROLLUP、CUBE、GROUPING SETS2022-04-27 12:04:05

    摘要:GaussDB(DWS) ROLLUP,CUBE,GROUPING SETS等OLAP函数的原理解析。 本文分享自华为云社区《GaussDB(DWS) OLAP函数浅析》,作者: DWS_Jack_2。 在一些报表场景中,经常会对数据做分组统计(group by),例如对一级部门下辖的二级部门员工数进行统计: create table emp( id int, --工号 n

  • |NO.Z.00073|——————————|BigDataEnd|——|Hadoop&实时数仓.V04|---------------------------------------|实时数仓.v02022-04-16 14:35:30

    [BigDataHadoop:Hadoop&实时数仓.V04]                                        [BigDataHadoop.电商行业实时数仓项目][|Hadoop|实时数仓|实时数仓:实时数仓$Flink双流Join&connect CoProcessFunction处理双流数据|]一、connect CoProcessFunction###

  • |NO.Z.00072|——————————|BigDataEnd|——|Hadoop&实时数仓.V03|---------------------------------------|实时数仓.v02022-04-16 14:34:57

    [BigDataHadoop:Hadoop&实时数仓.V03]                                        [BigDataHadoop.电商行业实时数仓项目][|章节四|Hadoop|实时数仓|实时数仓:实时数仓$Flink双流Join&基于window双流Join|]一、基于window双流Join### --- 基于window双流

  • |NO.Z.00076|——————————|^^ 编程 ^^|——|Hadoop&实时数仓.V02|---------------------------------------|实时数仓.v022022-04-16 14:34:37

    [BigDataHadoop:Hadoop&实时数仓.V02]                                        [BigDataHadoop.电商行业实时数仓项目][|章节四|Hadoop|实时数仓|实时数仓:实时数仓$在Hadoop集群环境运行实时数仓程序.V2|]一、启动集群环境相关服务### --- 启动zooke

  • |NO.Z.00075|——————————|^^ 编程 ^^|——|Hadoop&实时数仓.V01|---------------------------------------|实时数仓.v012022-04-16 14:34:10

    [BigDataHadoop:Hadoop&实时数仓.V01]                                        [BigDataHadoop.电商行业实时数仓项目][|章节五|Hadoop|实时数仓|实时数仓:实时数仓$在Hadoop集群环境运行实时数仓程序.V1|]一、在真实服务器集群环境上运行:在pom.xml下

  • |NO.Z.00077|——————————|^^ 编程 ^^|——|Hadoop&实时数仓.V03|---------------------------------------|实时数仓.v032022-04-16 14:34:01

    [BigDataHadoop:Hadoop&实时数仓.V03]                                        [BigDataHadoop.电商行业实时数仓项目][|章节五|Hadoop|实时数仓|实时数仓:实时数仓$在Hadoop集群环境运行实时数仓程序.V3|]一、运行OrderStatistics### --- 复制类的绝

  • 数据湖概要分析2022-04-02 18:32:20

    一、什么是数据湖 数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交互集成,支持各类企业级应用。 用阿里的数据架

  • 数仓建模—OneID2022-03-30 18:04:34

    今天是我在上海租房的小区被封的第三天,由于我的大意,没有屯吃的,外卖今天完全点不到了,中午的时候我找到了一包快过期的肉松饼,才补充了1000焦耳的能量。但是中午去做核酸的时候,我感觉走路有点不稳,我看到大白的棉签深入我的嘴里,我竟然以为是吃的,差点咬住了,还好我有仅存的一点意识。下

  • 数仓如何设置大小写不敏感函数2022-03-25 15:03:38

    摘要:本文旨在介绍DWS中存在的一些大小写不敏感函数,介绍大小写敏感GUC参数设置的使用和对应大小写敏感函数的结果展示。 本文分享自华为云社区《GaussDB(DWS) 大小写不敏感函数》,作者: 积少成多 。 1. 大小写不敏感函数 大小写不敏感函数是指入参忽略大小写的函数,此类函数的主要应用

  • 数据仓库—数据集成2022-03-21 18:36:24

    这几天上海疫情严重了,居家办公了几天,后面如果去公司上班需要核酸证明,今天去做了个核酸,竟然是桶鼻子,卧槽。不过说实话,捅鼻子也没啥,这酸爽犹如灵魂出窍,全身通透,让人飘飘然而不知所措。做一次管3天,后面可能还要去做,其实我在想传说中的肛拭子是啥样,我倒真希望体验一下。。。 数据仓库

  • 数仓项目常用脚本2022-03-07 09:31:16

    常用脚本 1.集群分发脚本xsync (1)需求:循环复制文件到所有节点的相同目录下 (2)需求分析 ①rsync命令原始拷贝: rsync -av /opt/module root@hadoop103:/opt/ ②期望脚本: xsync 要同步的文件名称 ③说明:在/home/用户名/bin这个目录下存放的脚本,用户可以在系统任何地方直接执行。 (3

  • 数仓中长跳转问题复现及解决方案2022-03-02 11:03:25

    摘要:本文将GaussDB(DWS)中长跳转引发的错误抽象为例子,讨论了C语言在长跳转下可能会出现的问题,最后简单给出了解决方法和验证。 本文分享自华为云社区《GaussDB(DWS)中长跳转可能出现的问题》,作者: 雷电与骤雨。 问题描述,在GaussDB(DWS)编码实践中,发现在debug未进行编译器优化的版本

  • 高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库2022-02-28 17:34:29

    内容目录 高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库二、外部数据/非结构化数据与数据仓库 高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库 一、高级管理人员信息系统和数据仓库 EIS

  • 【大数据课程】高途课程实践-Day02:利用Hive SQL编写离线数仓实现可视化展示2022-02-27 23:02:02

    〇、概述 1、实现内容 使用Hive SQL编程,构造分层离线数仓 并可以通过Quick Bi进行展示 2、过程 (1)数据接⼊到ODS层 (2)进⾏ODS到DWD层数据开发 (3)进⾏ODS到DIM层数据开发 a.创建 【电商_商家维度表_⽇】表 b.创建【电商_商品维度表_⽇】表 c.创建【电商_⽤⼾维度表_⽇】表 (4)进⾏DWS层

  • 数仓重点2022-02-27 15:35:11

    第一章 数据建模 1.1 建模工具 PowerDesigner SQLYog EZDML 1.2 ODS层 Operation Data Store,原始数据层 ODS做了那些事? (1)保持数据原貌不做任何修改,起到备份数据的作用。 (2)数据采用压缩(LZO),减少磁盘存储空间(例如:原始数据100G,可以压缩到10G左右) (3)创建分区表,防止后续的全表扫描 1.3

  • 数仓建模—数据集市2022-02-23 22:02:55

    数据仓库系列文章(持续更新) 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 数据仓库之拉链表 数仓—数据集成 数仓—数据集市 数仓—商业智能系统 数仓—埋点设计与管理 数仓—ID Mapping 数仓—OneID 数仓—AARRR海盗模型 数仓—总

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有