ICode9

精准搜索请尝试: 精确搜索
  • 流计算 Oceanus | 巧用 Flink 构建高性能 ClickHouse 实时数仓2021-12-29 02:33:48

    ​  作者:董伟柯——腾讯云大数据产品中心高级工程师   概述 Apache Flink 是流式计算处理领域的领跑者。它凭借易用、高吞吐、低延迟、丰富的算子和原生状态支持等优势,多方位领先同领域的开源竞品。 同样地,ClickHouse 是 OLAP 在线分析领域的一颗冉冉新星,它拥有极其出众的查询性

  • 数仓开发那些事(6)2021-12-20 21:00:47

    作为一名在年前找实习生工作的22年应届生,今天的我又被鸽子了. 注意我的用词,我用的是"又",只不过这次的更狠心,约了今天上午线上面试,一点通知没有,白等了一个上午,其实我很不喜欢线上面试,主要是它会影响我和面试官吹牛. 实习生的面试,其实没有什么太多技术上的问题,就是问你

  • 从双11看实时数仓Hologres高可用设计与实践2021-12-17 12:04:03

    2021年阿里巴巴双11完美落下为帷幕,对消费者来说是一场购物盛宴,对背后的业务支撑技术人来说,更是一场年度大考。在这场大考中,一站式实时数仓Hologres以每秒11.2亿条的高速写入,和每秒1.1亿次的查询峰值(包含点查和OLAP查询),交出了满意的答卷,稳定高效地支撑了阿里巴巴双11核心应用

  • 一文讲述数仓组件SysCache2021-12-17 10:03:09

    摘要:SysCache是ThreadLocal结构,每个线程都具有各自的SysCache,其中存储的缓存信息由执行的业务决定。 本文分享自华为云社区《GaussDB(DWS)CBB组件之SysCache原理介绍》,作者:疯狂朔朔。 SysCache是什么?我们为什么需要SysCache? 在说明这个问题之前,我们需要简单说明一下GaussDB(DWS)的基

  • 【大数据面试】【项目】数仓架构2021-12-15 22:36:54

    一、质疑分层不合理 云上大数据数仓解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse 1、离线数仓--基于hive      2、实时数仓--基于kafka中间件            每一步都会缓存至datahub 二、数仓概念 1、数仓的数据源和输出系统分别是什么 数据源:用户

  • (原创)大数据 数仓基本概念梳理2021-12-15 20:33:03

      一、大数据的基本概念   其实到目前为止对于大数据的数据量的多少还是一个可变定义,主观定义,即并不是要大于一个特定数据的TB,才叫大数据,包括在做的项目中,有的客户因场景需求即使几TB的数据仍然需要建立大数据体系来提供价值。所以这就体现了数据的属性,如行业属性,历史属性,价值

  • 数仓开发那些事(4)2021-12-11 16:34:20

    某不愿意透露姓名的神州实习生:一闪,听说你最近一直在摸鱼? 我:开发人的事,能叫摸鱼吗,一个需求给我3天,我1天就做完了,要是直接交上去,那不得被压榨吗? 神州实习生:原来是这样,那你抽个时间帮我写数据接口,晚上我把SQL发你 Spark与Flink的区别 老程序员:明天咱们要招实习生了,

  • 离线数仓基础知识(个人总结)2021-12-09 23:30:34

        声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章               2. 由于是个人总结, 所以用最精简的话语来写文章               3. 若有错误不当之处, 请指出 一、概述: 介绍: 数据仓库

  • 【离线数据仓库及CDH】思维导图知识点总结2021-12-07 22:35:29

    离线数仓 1.用户行为数仓采集 一、数仓概念 Data Warehouse 提供决策,为数据目的地做好准备 二、项目需求及系统架构 采集、行为/业务分层数仓、报表分析 框架CDH(CM):采集传输、存储、计算、查询 三、

  • 尚硅谷数据仓库实战之3数仓搭建2021-12-03 19:32:55

    @目录第4章 数仓搭建-ODS层4.2 ODS层(业务数据)4.2.1 活动信息表第5章 数仓搭建-DIM层5.1 商品维度表(全量)5.6 用户维度表(拉链表)5.6.1 拉链表概述5.6.2 制作拉链表第6章 数仓搭建-DWD层6.1 DWD层(用户行为日志)6.1.1 日志解析思路6.1.2 json_object函数使用6.1.3 启动日志表6.1.4 页面

  • 数仓建模—宽表的设计2021-12-02 13:01:56

    宽表的设计 其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技术进步和时代变化相结合的产物,数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发。 宽表主要出现在dwd 层和报表层,当然有的人说dws 层也

  • flink实时数仓2021-12-01 19:58:31

    目录 电商常识实时数仓架构对所用到的表进行解析完成数据源和数据采集完成ODS层完成DIM层分析表结构使用代码导入数据并checkpoint将相同部分的代码进行封装 完成DWD层完成ADS层 电商常识 由于这个项目是基于电商数据所完成的项目,所以这里对电商的一些常识做一个简单普

  • 尚硅谷数仓实战之1项目需求及架构设计2021-12-01 18:02:06

    @目录第2章 项目需求及架构设计需求分析项目框架技术选型数据流程设计框架版本选型服务器选型集群规模集群资源规划设计第3章 数据生成模块目标数据页面事件曝光启动错误数据埋点主流埋点方式(了解)埋点数据上报时机埋点数据日志结构 数仓笔记 数据仓库和数据集市详解:ODS、DW、DWD

  • 基于EMR OLAP的开源实时数仓解决方案之ClickHouse事务实现2021-12-01 14:34:02

    ​简介:Flink 和 ClickHouse 分别是实时流式计算和 OLAP 领域的翘楚,很多互联网、广告、游戏等客户都将两者联合使用于构建用户画像、实时 BI 报表、应用监控指标查询、监控等业务,形成了实时数仓解决方案 ​ 作者 | 扬流、枢木、辰繁 来源 | 阿里技术公众号 一 背景 Flink 和 Clic

  • 尚硅谷数仓虚拟机镜像2021-11-28 09:05:37

    尚硅谷数仓虚拟机镜像 博主通过学习尚硅谷数仓项目,将部署好的数仓虚拟机打包成ovf文件,由于博主电脑内存较小,博主使用了伪分布式集群搭建,全流程运行成功。分享虚拟机镜像文件给予大家学习。搭建数仓只需一台虚拟机,且最低配置(内存:3G,磁盘:20G,CUP:1,Linux最小化安装) 导入镜像的前提

  • 微信 ClickHouse 实时数仓的实践之路2021-11-25 14:34:17

    ​微信作为一款国民级应用,已经覆盖了社交、支付、出行等人们生活的方方面面。海量多样化的业务形态,对数据分析提出了新的挑战。为了满足业务数据分析的需求,微信WeOLAP团队联手腾讯云,共建千台规模、数据 PB 级、批流一体的 ClickHouse 数据仓库,实现了10倍以上的性能提升。下文将

  • 最强最全面的数仓建设规范指南2021-11-11 12:31:32

    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等! 目录: 一、数据模型架构原则 数仓分层原则主题域划分原则数据模型设计原则 二、数仓公共开发规范 层次调用规范数据类型规范数据冗余规范NULL字段处理规范

  • 数仓工具—Hive进阶之优化map任务数量(9)2021-11-09 18:59:31

    控制 map 任务数量 为什么要控制 map 数量 我们先来了解下什么情况要设置 map 数量。一般来讲,map 数量默认,不需要我们设置,一般情况下,Hive 自己就可以知道到底使用多少个map。 但是,当我们明确知道表的数据量不大,而 Hive 运行启动了几千个 map 的时候,就有必要减小 map 的数量了

  • 2021-10-29 数据集市与数据仓库的区别2021-10-29 13:58:18

    2.3 数据集市与数据仓库的区别 - 知乎 (zhihu.com)2.3 数据集市与数据仓库的区别 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/600387471. 数仓:整体、详细,集团或企业级 2. 数据集市:局部、综合,可以从属于数仓

  • 数仓环境搭建2021-10-22 11:29:59

    文章目录 Hive环境搭建Hive引擎简介Hive on Spark配置 Yarn配置增加ApplicationMaster资源比例 数仓开发环境启动HiveServer2配置DataGrip连接测试使用 数据准备用户行为日志业务数据 Hive环境搭建 Hive引擎简介 Hive引擎包括:默认MR、tez、spark Hive on Spark:Hive既作

  • hive数仓常见面试题20212021-10-22 10:03:11

    1|0面试题: hive 内部表和外部表的区别?hive 是如何实现分区的?Hive 有哪些方式保存元数据,各有哪些优缺点?hive中order by、distribute by、sort by和cluster by的区别和联系hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别?hive 如何优化? 2|0hive 内部表和外部

  • 写给初学者,一文搞懂大数据学习、岗位、面试及简历2021-10-14 11:03:30

    最近有读者私聊我时发现有不少应届生和初学者,他们在大数据怎么学,以及大数据怎么面试,简历怎么写等方面有很大的困扰,今天我们就来谈谈关于大数据的一些事。 写在前面:每个人的学习方法可能不一样,只有找到适合自己的才是最好的,以下这些只是我在学习大数据时的一些总结及经验,有不全面

  • 最新Kettle智能电商全栈数据仓库项目 Kettle ETL处理实时仓库+离线仓库高级项目课程2021-10-09 20:58:18

    Kettle智能电商全栈数据仓库项目 Kettle ETL处理实时仓库+离线仓库高级项目课程 ===============课程目录=============== (1)\1、离线;目录中文件数:134个 ├─01-kylincube优化-确定cuboid数量与cubesize.mp4 ├─01-今日课程内容和课程目标.mp4 ├─01-今日课程目标与课程内容

  • 数据仓库介绍与实时数仓案例--阿里2021-10-08 23:34:25

    1.数据仓库简介 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大

  • 电商离线数仓项目-活跃/新增/留存主题2021-10-05 20:35:19

    电商离线数仓项目,分四层搭建,基本框架搭建好了之后,编写具体的需求.这些需求主要是在DWS层和ADS层两层进行搭建。 用户活跃主题 目标就是统计日活/周活和月活的每个设备明细。 思路:首先要明确活跃的定义,在这里用户当日活跃记录为用户使用该设备登录过APP,那么也就是说启动

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有