ICode9

精准搜索请尝试: 精确搜索
  • 数据仓库(4)基于维度建模的数仓KimBall架构2022-02-23 19:33:59

      基于维度建模的KimBall架构,将数据仓库划分为4个不同的部分。分别是操作型源系统、ETL系统、数据展现和商业智能应用,如下图。   操作型源系统,指的就是面向用户的各类系统,如app、网站、ERP、CRM等系统。这一块就是我们数据仓库的数据来源,并且这类数据往往有各自的格式和

  • 数仓建模—数据集成2022-02-22 22:33:13

    数据仓库系列文章(持续更新) 数仓架构发展史 数仓建模方法论 数仓建模分层理论 数仓建模—宽表的设计 数仓建模—指标体系 数据仓库之拉链表 数仓—数据集成 数仓—数据集市 数仓—商业智能系统 数仓—埋点设计与管理 数仓—ID Mapping 数仓—OneID 数仓—AARRR海盗模型 数仓—总

  • 看SparkSql如何支撑企业数仓2022-02-21 12:31:58

    企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本文作者:惊帆 来自于数据平台 EMR 团队 前言 Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive 已经不单单是一个技术组件,而

  • 数据仓库(2)数仓、大数据与传统数据库的区别2022-02-07 20:05:05

      文章来源:数据仓库(2)数仓、大数据与传统数据库的区别   数据仓库与大数据区别,数据仓库与数据库的区别,大数据与传统数据库的区别等等,这篇文章带你了解。   我们这里先来说说今天要对比的三个主体,数据仓库、大数据、数据库,在详细说明之前,我们先来说说这三个百度百科上面的定

  • 数据仓库(2)数仓、大数据与传统数据库的区别2022-02-07 19:32:50

      文章来源:数据仓库(2)数仓、大数据与传统数据库的区别   数据仓库与大数据区别,数据仓库与数据库的区别,大数据与传统数据库的区别等等,这篇文章带你了解。   我们这里先来说说今天要对比的三个主体,数据仓库、大数据、数据库,在详细说明之前,我们先来说说这三个百度百科上

  • 数仓 元数据管理 Atlas 的使用2022-02-06 12:04:37

    文章目录 Atlas的简介Solr的安装Atlas的安装和配置Kerberos相关配置 Atlas的登录和启动Atlas 的使用(案例)Atlas的项目实战Hive元数据增量同步全流程调度查看血缘依赖 扩展内容 Atlas的简介 简介 Solr的安装 Solr的安装 Atlas的安装和配置 Atlas的安装和配置 Kerberos相关

  • 数仓 用户认证 Kerberos 安全集群使用说明2022-02-01 17:04:06

    文章目录 用户要求访问HDFS集群文件Shell命令web页面 提交MapReduce任务 用户要求 1,具体要求 以下使用说明均基于普通用户,安全集群对用户有以下要求: 1)集群中的每个节点都需要创建该用户 2)该用户需要属于hadoop用户组 3)需要创建该用户对应的Kerberos主体 2,实操 此处以 lua

  • 数仓 Hadoop Kerberos配置2022-01-31 16:33:32

    文章目录 创建Hadoop系统用户Hadoop Kerberos配置为Hadoop各服务创建Kerberos主体(Principal)修改Hadoop配置文件配置HDFS使用HTTPS安全传输协议配置Yarn使用LinuxContainerExecutor 创建Hadoop系统用户 为Hadoop开启Kerberos,需为不同服务准备不同的用户,启动服务时需要使

  • 数仓 Kerberos 的部署2022-01-31 15:01:50

    文章目录 Kerberos概述什么是KerberosKerberos术语Kerberos认证原理 Kerberos安装安装Kerberos相关服务初始化KDC数据库修改管理员权限配置文件启动Kerberos相关服务创建Kerberos管理员用户 Kerberos使用概述Kerberos数据库操作Kerberos认证操作 Kerberos概述 什么是Ker

  • 数仓 Zabbix 集成 Grafana2022-01-29 23:03:28

    文章目录 集成Grafana部署Grafana快速入门 集成Zabbix配置数据源集成案例 集成Grafana 部署Grafana 1.下载Grafana安装包 官方仓库:https://dl.grafana.com/oss/release/grafana-7.4.3-1.x86_64.rpm 国内镜像:https://repo.huaweicloud.com/grafana/7.4.3/grafana-7.4.3-1

  • 实时数仓|基于Flink1.11的SQL构建实时数仓探索实践2022-01-26 21:31:25

    实时数仓|基于Flink1.11的SQL构建实时数仓探索实践_jmx_bigdata的博客-CSDN博客_flinksql实时数仓实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线

  • 【离线数仓面试】数仓架构:架构、输入输出、流程、框架选型及版本、项目集群规模、分层架构、分层原因2022-01-20 23:00:32

    1、数仓架构介绍 神策数据: 云上数仓:https://www.aliyun.com/solution/datavexpo/datawarehouse   2、数仓的输入输出 输入系统:用户埋点行为数据、后台产生的业务数据、爬虫数据。 输出系统(BI):报表系统、大屏展示、用户画像系统、推荐系统   3、系统流程   4、框架选型 1)Apache:

  • 【转】关于数据建模之思考(三):数仓分层设计架构2022-01-19 17:32:03

    帆软有篇关于数仓建模的博文讲的不错,清楚解释了不同层次的作用和含义。   虚线下面是文章内容   文章出处https://www.fanruan.com/bw/gysjj   ---------------------------------------------------------------------------------------------------------------------    

  • 数据湖与数仓技术优势对比2022-01-16 16:34:22

      第一个维度是方法论,数据湖其实是一个文件存储系统,用户可以往里面放任何一种文件或者数据,它的一个典型特点是事后建模,它的方法论是用户先把数据放上来,然后再考虑如何使用,也叫做SchemaOnRead。数据仓库正好相反,它是事前建模的模式,当你在把数据推进数据仓库的时候,要求先CreateTab

  • 大数据数仓面试流程和重点面试题2022-01-15 22:01:08

    一、自我介绍 看简历+表达能力 2-3分钟左右(学历、参加工作、爱好、特长) 二、项目 背 三、数据仓库 1、以数仓为中心 不要直接上来说ods、dwd、dws、ads 2、范式建模与维度建模的方式区别 3、主题划分是否合适 4、事实表与维度表的介绍 有多少张,哪些缓解进行度量 5、总结矩阵 6、变

  • 离线数仓项目:自定义UDAF函数2022-01-13 09:02:45

    参考官网:GenericUDAFCaseStudy - Apache Hive - Apache Software Foundationhttps://cwiki.apache.org/confluence/display/Hive/GenericUDAFCaseStudy package comxxx.hive; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.hive.ql.exec.UDFArgumentE

  • 【实时数仓】Day06-数据可视化接口:2022-01-11 12:32:23

    一、数据可视化接口介绍 1、设计思路 后把轻度聚合的结果保存到 ClickHouse 中后,提供即时的查询、统计、分析 展现形式:用于数据分析的BI工具【商业智能(Business Intelligence)】、面向非专业人员的数据大屏 本章节使用面向百度的Sugar数据大屏服务 2、需求梳理 (1)显示效果   (2)可视

  • 怎么评价数仓的健康度2022-01-11 11:31:47

    转载:https://baijiahao.baidu.com/s?id=1715303945758332664&wfr=spider&for=pc   编辑导语:作为数据中台能力的根基,对数据资产的管理则必然提至中台建设日程当中。那么,数据资产管理过程中可能会出现什么问题?数据资产健康管理又可以从哪些方面入手呢?本篇文章里,作者就数据资产管理

  • CCO x Hologres:实时数仓高可用架构再次升级,双11大规模落地2022-01-10 18:02:32

    ​简介:本文将会介绍今年是如何在去年基础上进行实时数仓高可用架构升级,并成功大规模落地双11。 作者 | 梅酱 来源 | 阿里技术公众号 一 2021年双11总结 2021年阿里巴巴双11期间,由CCO+Hologres构建的高可用实时数仓经过2年的迭代,支撑了阿里集团内部从智能到人工,从应用到数据产品,从B

  • 数据仓库2022-01-08 19:35:17

    第一章 数据仓库概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不需要“

  • 数仓_介绍2022-01-07 19:02:13

    数据仓库全称为Data Warehouse,简称DW 数据仓库是一种理论知识,通过数仓理论知识结合不同的业务体系而构建的数据生命体系,数据生命体系构建于整个数据平台体系之上业务体系之下。 数据仓库之父 Bill Inmon将数据仓库定义为——面向主题的、集成的、相对稳定的、反映历史变化的数据

  • 【实时数仓】Day02-DWD-DIM 层数据准备:2022-01-05 21:08:09

    一、需求分析及实现思路 1、分层需求 建立数仓目的:增加数据计算的复用性 可以从半成品继续加工而成 从kafka的ODS层(数据一开始就读到了kafka)读用户行为数据和业务数据,并写回到kafka的DWD层 2、各层的职能 3、DWD层数据准备 环境搭建、计算用户行为日志DWD层、计算业务数据DWD层

  • 【实时数仓】Day0:数据流程、课程内容、框架结构2022-01-02 21:32:29

    一、数据流程 1、离线数仓 2、实时数仓  二、课程内容 1、数据采集层(ODS) 2、DWD层与DIM层数据准备 3、DWM层业务实现 4、DWS层业务实现 5、ClickHouse 6、数据可视化接口实现 7、数仓优化 8、FlinkCDC 三、框架结构

  • 阿里云实时数仓Hologres通过中国信通院分布式分析型数据库性能评测,8192个节点刷新现有参评记录2021-12-31 18:30:20

    2021年11月23日至12月3日,中国信息通信研究院(以下简称“中国信通院”)对第13批分布式分析型数据库共计27款产品进行了大数据产品能力评测。阿里云实时数仓Hologres(原阿里云交互式分析)在报表任务、交互式查询、压力测试、稳定性等方面通过了中国信通院分布式分析型数据库性能评

  • 数仓_给标准b层加分区2021-12-29 13:59:59

    数仓分层b-o-s-i-a b层为源数据层 调度平台shell脚本里面配置 场景: 老表分区数据需要保留,但是需要把分区数据添加到另外一张新表的新分区里面 #给标准B层表增加分区: sh /home/zoomspace/udp_collect/add_partition.sh bdl.b_ccm_v_rm_inspection_issue $partitionDate #bdl.b

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有