ICode9

精准搜索请尝试: 精确搜索
  • 各大厂应用实践 — 大数据2021-07-13 19:59:10

    大厂应用实践 美团 美团外卖流量数据的采集加工和应用:点击这里 美团外卖实时数仓建设实践:点击这里 美团外卖离线数仓建设实践:点击这里 美团 Flink 实时数仓应用经验分享:点击这里 Druid SQL和Security在美团点评的实践:点击这里 Flink 数据湖 助力美团数仓增量生产:点击这里 Apa

  • 数仓工具—Hive语法之行列转换(18)2021-07-12 18:01:37

    行列转换 今天我们看一个比较常见的计算场景,行列互换,又时候有称之为行列互转 行专列 把多行数据转换成多列数据 列转行 把多列数据转成多行数据 说起来还是有点抽象的,我们还是用一个例子说明一下这两个概念到底是怎么回事,解释清楚之后我们再举几个例子 这是一个学生的成绩表,

  • 尚硅谷_尚硅谷离线数据仓库项目(阿里云离线数仓)_笔记2021-07-11 15:30:59

    网址:https://www.bilibili.com/video/BV1AJ411Q7ox?p=29&spm_id_from=pageDriver 一、项目架构设计 1.1 阿里云技术框架 1.2 技术选型 1.3 系统数据流程设计 二、数据生成模块 三、数据采集模块 3.1 购买 ECS 云服务器 3.2 基础环境准备 3.3 Flume Flume 是 Cloudera 提供

  • 数仓开发5大SQL分析函数2021-07-09 17:02:38

    基本语法 analytic_function_name([argument_list]) OVER ( [PARTITION BY partition_expression,…] [ORDER BY sort_expression, … [ASC|DESC]]) analytic_function_name: 函数名称 — 比如 RANK(), SUM(), FIRST()等等partition_expression: 分区列sort_expression: 排

  • 大数据数仓基础知识学习笔记【2】2021-07-07 22:29:30

    数据仓库基础知识学习笔记【1】 数据仓库 数据仓库(Data Warehouse,DW) 数据仓库为各个部门建立了一个统一的数据视图,解决每个部门从业务数据库抽取数据而导致的分析结果不一致问题。 数仓面向于数据分析,业务数据库面向于业务系统 数据仓库是一个面向主题的、集成的、非易失的且

  • 离线数仓(一)2021-07-04 12:33:59

    离线数仓 1、数据仓库概念2、项目需求及架构设计~项目需求分析~项目框架~~技术选型~~系统数据流程设计~~框架版本选型~~集群资源规划设计 3、数据生成模块~埋点数据基本格式~事件日志数据~~商品列表页(loading)~~商品点击(display)~~商品详情页(newsdetail)~~广告(ad)~~消息

  • 离线数仓(十)2021-06-28 02:31:07

    第10章 全流程调度 10.1 Azkaban部署   详情请看博客:https://www.cnblogs.com/LzMingYueShanPao/p/14911782.html 10.2 创建MySQL数据库和表   1)创建 gmall_report 数据库(也可以使用SQL语句创建) #使用Sql语句创建数据库create database `gmall_report` character set 'ut

  • 离线数仓(九)2021-06-27 20:02:16

    第9章 数仓搭建-ADS层 9.1 建表说明   ADS层不涉及建模,建表根据具体需求而定 9.2 访客主题 9.2.1 访客统计   1.建表语句 drop table if exists ads_visit_stats; create external table ads_visit_stats( `dt` string comment '统计日期', `is_new` string comment

  • 数仓维度建模之维度表设计2021-06-21 15:58:56

    维度设计基本方法 1、设计步骤: 1)第一步:选择维度或新建维度。 作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性。以淘宝商品维度为例,有且只允许有一个维度定义。 2)第二步:确定主维表。 此处的主维表一般是 ODS 表,直接与业务系统同步。以淘宝商品维度为例,s_auction_ auc

  • 最新数仓面试题_知行教育数仓项目2021-06-21 11:06:16

    文章目录 1、能否简介一下当前这个项目 37、你们的原始数据一共有多张数据表? 38、业务上用到哪些表? 39、一共有多少个分析需求? 21、请简述项目中5个看板各自的建模 40、列举几个你实现的需求? 2、什么是数据仓库呢? 3、数据仓库和传统的业务数据库有什么区别? 4、OLTP和OLAP分别是

  • 数仓工具—Hive实战之拉链表(3)2021-06-20 17:32:04

    拉链表初识 需要查看历史某一时间节点的状态,同时考虑到存储空间;或则适用于数据会发生变化,但是大部分是不变的 在数据仓库的数据模型设计过程中,经常会遇到下面这种表的设计: 有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会

  • 全面的关于OLAP数仓总结2021-06-17 18:04:03

    有哪些类型的OLAP数仓? 按数据量划分 对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所示:本系列文章主要关注的是数据量处于百万到百亿级别的偏实时的分析型数仓,Cloudera的Impala、Facebook的Presto和

  • 来电科技:基于 Flink + Hologres 的实时数仓演进之路2021-06-17 10:32:50

    简介: 本文将会讲述共享充电宝开创企业来电科技如何基于 Flink + Hologres 构建统一数据服务加速的实时数仓 作者:陈健新,来电科技数据仓库开发工程师,目前专注于负责来电科技大数据平台离线和实时架构的整合。 深圳来电科技有限公司(以下简称 “来电科技”)是共享充电宝行业开创企业

  • Flink + Iceberg 在去哪儿的实时数仓实践2021-06-14 23:32:48

    一、背景及痛点 背景 我们在使用 Flink 做实时数仓以及数据传输过程中,遇到了一些问题:比如 Kafka 数据丢失,Flink 结合 Hive 的近实时数仓性能等。Iceberg 0.11 的新特性解决了这些业务场景碰到的问题。对比 Kafka 来说,Iceberg 在某些特定场景有自己的优势,在此我们做了一些基

  • 浪尖聊聊大数据从业者的迷茫及解决方案2021-06-13 21:51:26

    最近不少粉丝找浪尖私聊,说做大数据久了比较迷茫,今天浪尖抽时间写篇文章聊聊做大数据迷茫了怎么办! 一 现状 目前的迷茫最主要原因是行业趋势所致,了解一下大数据行业的现状: 对于整个行业来说处于上升期的小平台期。 这么说的原因是需要大数据平台的公司都多多少少已经建立了平台

  • 大数据001——数仓搭建相关2021-06-12 14:58:38

    一。这里用的是hadoop生态的hive进行存储,首先说hive的表大致分为内部表和外部表,又分为分区表(PARQUET)和桶表。 hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE(0.11以后出现) 5、PARQUET 总结:相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方

  • 胖哥的经验 | 一款普适的实时数仓架构设计2021-06-11 18:53:51

    什么?胖哥的经验,没错这是来自我们大数据成神之路小伙伴的经验。有什么问题,欢迎大家加群讨论,公众号回复【加群】。 一、实时数仓的架构背景 首先我们来聊一聊实时数仓是怎么诞生的,在离线数仓的时候数据是T+1的也就是隔一天才能看到昨天的数据,这种形式持续了很久的时间,但是有些场景

  • 胖哥的经验 | 一款普适的实时数仓架构设计2021-06-11 18:53:30

    什么?胖哥的经验,没错这是来自我们大数据成神之路小伙伴的经验。有什么问题,欢迎大家加群讨论,公众号回复【加群】。 一、实时数仓的架构背景 首先我们来聊一聊实时数仓是怎么诞生的,在离线数仓的时候数据是T+1的也就是隔一天才能看到昨天的数据,这种形式持续了很久的时间,但是有些场景

  • 漫谈数仓五重奏2021-06-11 18:53:06

    第一篇:漫谈数仓 什么是数据仓库?以下是百度百科的定义: 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务

  • 漫谈数仓五重奏2021-06-11 18:52:48

    第一篇:漫谈数仓 什么是数据仓库?以下是百度百科的定义: 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务

  • 数据仓库介绍与实时数仓案例2021-06-11 17:54:32

    1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越

  • 数据仓库介绍与实时数仓案例2021-06-11 17:54:18

    1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越

  • 离线数仓(三)2021-06-09 21:35:37

    第3章 数仓环境搭建 3.1 Hive环境搭建 3.1.1 Hive引擎简介   Hive引擎包括:默认MR、tez、spark   Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。   Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析

  • 离线数仓(二)2021-06-09 20:04:07

    第1章 数仓分层 1.1 为什么要分层   1)数据仓库分层     ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理     DWD层:对ODS层数据进行清洗(去除空值、脏数据、超过极限范围的数据)、脱敏等,保存业务事实明细,一行信息代表一次业务行为,例如一次下单  

  • 电商 实时数仓 简易架构图2021-06-08 23:33:51

    一个人走的很快,一群人走的更远。 扫描下面的QQ二维码加入Lark的数据中台开源社区,并为你提供全程免费服务,你也可以与其他伙伴交流大数据技术,如果觉得项目不错,可以star关注,LarkMidTable团队将十分感谢您的关注! QQ群1群【678097205】已满 微信公众号 【LarkMidTable】

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有