ICode9

精准搜索请尝试: 精确搜索
  • 数仓工程师面试知识点汇总2022-08-08 21:33:55

    1.知识体系 2.HIVE相关 四种排序的区别 提交一个hive任务后的后台执行流程(sql转化为mr的过程) 数据倾斜的成因及优化方法 概念模型、逻辑模型、物理模型是什么   3.基础概念相关 数仓概念、作用 数仓分层 数据仓库和数据库的区别 数仓模型设计思路(范式建模和维度建模,星座/星型)  

  • 阿里云云原生一体化数仓 — 湖仓一体新能力解读2022-07-28 18:02:11

    简介: 本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。 分享人:阿里云智能 产品专家 孟硕   没来得及看直播的同学,可以观看直播回放。直播回放:https://developer.aliyun

  • 数仓建模2022-07-14 19:34:42

    第一数据仓库构建方式 数据仓库构建的方式有两种方式,一种是自上而下的;另一种是自下而上。   Bill Inmon先生推崇的 自上而下的方式,自上而下的方式构建数据仓库表面,要建立数据仓库,并不需要考虑数据仓库支持那些应用、报表、指标等,而是要从整个企业的业务入手,分析其的业务架构、业

  • 一键同步mysql到数仓(airflow调度)2022-07-09 23:35:52

    经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具) 一:背景、功能、流程介绍 1.背景:     1.数仓使用hive存储,datax导数据、airflow调度    2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了        还需

  • 02数仓开发-04数仓多维模型构建2022-07-06 12:01:13

    目录一.背景二.维度爆炸&下游易用三.如何优化1.grouping sets字句2.lateral view + 自定义维度list3.通过配置文件,维护维度list 一.背景 数仓建设中经常会有多个维度灵活组合看数的需求,这种多维分析的场景一般有两种处理方式 即时查询 适合计算引擎很强,查询灵活,并发量不大的

  • 最强最全的数仓建设规范指南,肝完后卷哭他们!2022-06-29 18:02:35

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!   一、数据模型架构原则    1、数仓分层原则   优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路

  • 阿里云云原生一体化数仓 — 离线实时一体化新能力解读2022-06-28 18:01:08

    简介: 介绍MaxCompute+Hologres离线和实时数仓一体化优于之前有离线、有在线、有很多不同的引擎的实现方案,通过用实时的引擎做预处理,实现离线实时数据入仓后做更加实时的服务化BI分析实践。 没来得及看直播的同学,可以看下直播回放。直播回放:https://developer.aliyun.com

  • 数仓的字符截取三胞胎:substrb、substr、substring2022-06-27 17:04:16

    摘要:下面就来给大家介绍这三个函数在字符截取时的一些用法与区别。 本文分享自华为云社区《GaussDB(DWS)中的字符截取三胞胎》,作者:我站在北方的天空下 。 在GaussDB(DWS)中关于字符截取功能的支持有个函数三胞胎,它们分别是substrb()、substr()、substring(),很多人大概只知道它们可

  • 解析数仓lazyagg查询重写优化2022-06-25 14:31:45

    摘要:本文对Lazy Agg查询重写优化和GaussDB(DWS)提供的Lazy Agg重写规则进行介绍。 本文分享自华为云社区《GaussDB(DWS) lazyagg查询重写优化解析【这次高斯不是数学家】》,作者: OreoreO 。 聚集操作将查询结果按某一列或多列的值分组,值相等的为一组。聚集操作是一种常见的操作并在

  • 数仓-拉链表2022-06-23 10:35:42

    一,什么是拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 二,用在什么地方 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 数据量比较大; 表中的部分字段会被update,如用户的

  • Hadoop 和 MPP 作为数仓组件的区别2022-06-22 13:35:23

    1,原理对比 MPP方案中的数据通常在节点之间拆分(分片),每个节点仅处理其本地数据。而且,每家都有专门为 MPP 解决方案开发的复杂而成熟的 SQL 优化器。它们都可以在内置语言和围绕这些解决方案的工具集方面进行扩展,支持地理空间分析、数据挖掘的全文搜索。在任务执行过程中,单一的 Execu

  • 离线数仓 建模、表的类型分类2022-06-15 09:32:51

    关系建模:遵循三范式 1.基本字段不可再分割 2.其他字段对主键完全依赖 3.其他字段间不存在传递依赖关系 维度建模:星型模型 雪花模型 星座模型   实体表 维度表(码表) 事实表 事实表的分类:事务型事实表 周期型快照事实表 累积型快照事实表 按数据同步分类: 全量表 增量表 同步新增

  • 离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾2022-06-10 14:00:08

    原文链接:离线数仓建设,企业大数据的业务驱动与技术实现丨03期直播回顾 视频回顾:点击这里 课件获取:点击这里 一、离线数仓建设背景 离线数据是相对实时数据而言的数据产出,不同于实时数据,离线数据一般是T+1天处理,也就是说昨天产生的数据至少要今天才能看到计算结果。离线数据一般应用

  • 数仓血缘关系数据的存储与读写2022-05-26 11:32:39

    本文首发于 Nebula Graph Community 公众号 一、选择 Nebula 的原因 性能优越 查询速度极快 架构分离,易扩展(目前的机器配置低,后续可能扩展) 高可用(由于是分布式,所以从使用到现在没有出现过宕机情况) 上手容易 介绍全(熟悉架构和性能) 部署快(经过手册的洗礼,快速部署简单的集群) 使

  • 数仓选型必列入考虑的OLAP列式数据库ClickHouse(中)2022-05-22 03:01:01

    实战 案例使用 背景 ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案;主要设计组件及架构如下: 而新一代日志监控选型如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战,不乏有许多的大公司如携程,快手已开始把自己的日志解决方案从 ES

  • 5. 业务数仓理论2022-05-20 22:03:06

    一、表的分类 1.实体表:一个现实存在的业务对象(用户表) 2.维度表:对应一些业务状态(订单状态) 3.事务型事实表:一旦发生不会再变化(交易流水) 4.周期性事实表:随着业务发生不断产生的数据(订单) 二、同步策略 1.数据同步类型:全量表、增量表、新增及变化表 全量表:存储完整的数据 增量表:存

  • 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(下)2022-05-19 23:00:07

    数据导入 总览 概述 数据导入功能是将原始数据按照相应的模型进行清洗转换并加载到StarRocks中,方便查询使用。StarRocks提供了多种导入方式,用户可以根据数据量大小、导入频率等要求选择最适合自己业务需求的导入方式。 离线数据导入,如果数据源是Hive/HDFS,推荐采用Broker Load导入

  • 【数仓项目记录4】全流程调度及可视化2022-05-14 19:01:27

    全流程调度器部署 1.不同层数据装载脚本之间存在依赖关系 2.业务数据每天都产生,因此脚本每天都要执行--定时问题 可以考虑使用ooize、Azkaban,Ooize是重量级的任务调度系统,配置更复杂,配合界面UI使用 说到定时——想到linux中的crontab命令 crontab命令详解 命令格式: crontab [-u us

  • 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(中)2022-05-14 01:31:44

    概述 背景 Apache Doris官方地址 https://doris.apache.org/ Apache Doris GitHub源码地址 https://github.com/apache/incubator-doris Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构

  • 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(上)2022-05-12 23:04:37

    概述 背景 Apache Doris官方地址 https://doris.apache.org/ Apache Doris GitHub源码地址 https://github.com/apache/incubator-doris Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构

  • 互联网用户画像,精准营销,数仓有妙招2022-05-11 15:04:29

    摘要:通过GaussDB(DWS)的Roaringbitmap功能,实现用户画像,精准营销功能。 本文分享自华为云社区《互联网用户画像,精准营销,GaussDB(DWS)来支招》,作者: fudgefactor。 目前在互联网、教育、游戏等行业都有实时精准营销的需求。通过系统生成用户画像,在营销时通过条件组合筛选用户,快速提取

  • 数仓分层2022-05-10 10:03:27

    数据仓库分层 来源 https://www.bilibili.com/video/BV1t54y1r7Mc?p=79 参考文章:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/122426579 数仓建模:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/122402191 离线数仓 所谓数仓建模:就是应该建哪些表,表与表之间的关

  • 数据仓库(9)数仓缓慢变化维度数据的处理2022-05-06 21:31:23

      数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。   这里

  • 【数仓项目记录3】业务数据采集2022-05-02 12:32:09

    电商常识 业务表,与用户的操作相关,如添加收藏夹、购物车,下单,支付,退单、退款、评价、领优惠券等 后台管理系统面向公司内部开发者,维护商品信息、优惠信息等 业务数据的生成 使用项目提供的jar包生成某一日期下的数据,数据存储到hadoop102中的数据库中 Sqoop Sqoop是Hadoop和关系

  • 解析数仓OLAP函数:ROLLUP、CUBE、GROUPING SETS2022-04-27 12:04:05

    摘要:GaussDB(DWS) ROLLUP,CUBE,GROUPING SETS等OLAP函数的原理解析。 本文分享自华为云社区《GaussDB(DWS) OLAP函数浅析》,作者: DWS_Jack_2。 在一些报表场景中,经常会对数据做分组统计(group by),例如对一级部门下辖的二级部门员工数进行统计: create table emp( id int, --工号 n

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有