ICode9

精准搜索请尝试: 精确搜索
  • 关于数据仓库的自问2019-08-12 15:02:06

    1、为什么要建设数据仓库? 为了更快更好的响应业务上的分析需求。 1.1、数据仓库建设方法? 建设流程:梳理业务主题--》ER图(ER模型)--》逻辑建模(关系模型)。其中,数据仓库建设过程即ER图到关系模型的实现过程,数仓模型也属于关系模型中的一种,只是在此基础上需要考虑几个问题: 1)哪些维度

  • OPPO数据中台之基石:基于Flink SQL构建实数据仓库2019-08-12 10:06:22

    原文链接:https://yq.aliyun.com/articles/702436?spm=a2c4e.11163080.searchblog.20.58fa2ec1yDYzZ0   作者 | 张俊 本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink co

  • 电商用户画像数据仓库建立2019-08-12 10:01:17

    7.1  数据仓库准备工作 为什么要对数据仓库分层? l    用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据; l     如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大 l     通过数据分层管理

  • 如何才能让数仓构建成本降低80%,维护成本降低70%?2019-08-05 12:54:04

           构建数据仓库的核心是建模,在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线。从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,这也就是我们通常所说的 ETL 过程(Extract,Transform,Load)。       通常数据抽取工作分抽

  • 关于大数据,真的是你以为的吗?2019-08-03 22:37:06

    每天人们在吃饭,睡觉,工作,娱乐都会产生数据——大量的数据。根据IBM(国际机器商业公司)记录,人类每天会产生2.5万亿字节的数据,这相当于一堆DVD到达月球又返回来,我们发送的所有文本,和我们上传到工业传感器指标的照片,以及机器之间的通信这么大的量。 这是“大数据”成为一个很普遍的短

  • 数据仓库之建设规范2019-08-02 09:58:00

    一、数据埋点规范 1、数据传输与协议 标准JSON格式,经过:https(aes加密+gzip压缩)处理,上报到服务端。 2、埋点规范与约束 1)采用事件模型,一切都是事件。所有的数据都以事件形式上报,形成“基础信息 + 事件信息”这种数据模型,包括:SDK自采集、用户行为、App自动行为、APM、Debug等数据,都

  • 数据仓库到大数据2019-08-01 12:55:42

    笼统的文字总结一下: 根据发展演进其实应该是下面顺序: 数据库 -> 数据仓库 -> 数据湖 |数据集市|   阶段一(应用系统独立数据库): 各个业务应用系统依赖数据库,起到收集数据的作用。   阶段二(数据挖掘收集数据): 业务应用都是相对独立的单元主题,需要将各个应用系统的数据收集起来,再

  • 数据仓库Hive编程——数据类型和文件格式(一):基本数据类型2019-07-31 20:03:10

    分类目录:商业智能《数据仓库Hive编程》总目录 Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型, 其中一个需要考虑的因素就是这些数据类型是如何在文本文件中进行表示的,同时还要考虑文本存储中为了解决各种性能问题以及其他问

  • 五个顶级的大数据架构2019-07-30 22:03:24

    自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量的数据做到只有大企业才能做到的事情,至今大约有10年时间。这些事情其中包括网络日志、客户购买记录等,并通过按使需付费的方式提供低成本的商品集群。 自从像AWS这样的公共云产品开辟了大数据分析功能以来

  • API - 使用数据仓库 - 基础篇2019-07-30 15:07:52

    原文链接:http://www.cnblogs.com/iamzyf/p/3501137.html 数据仓库是集成在Spider Studio中的一个重要功能, 利用它可以非常方便的保存采集到的数据, 然后导出或者在其他脚本中再利用.  数据仓库的全部功能都集成在DataManager这个静态类里面, 基本用法

  • Spider Studio 界面功能布局2019-07-30 15:06:37

    原文链接:http://www.cnblogs.com/iamzyf/p/3502332.html SS是Spider Studio (采集工作站) 的简称, 这是由GDT团队开发的一款互联网数据采集开发工具. 它以浏览器为基础, 运用JQuery技术, 结合脚本化C#的强大功能, 能够轻松解决各类数据采集问题.  首先

  • 示例 - 数据仓库的妙用2019-07-30 15:04:51

    原文链接:http://www.cnblogs.com/iamzyf/p/3507367.html 当初为了在SS中设置数据仓库这个功能, 团队中有一些争议. 主要是集中在为啥要提供这个功能, 到底有没有必要等问题上, 但最终这个功能还是上了. 相信初用者也会有同样的疑问, 我想介绍一下数据仓

  • 什么是数据仓库?2019-07-29 21:56:30

      这些天在实习,公司要做数据分析,要先建立数据仓库。但是经常有人问我做什么,我回答数据仓库都不是特别明白是什么东西,我也不知道应该怎么更好的表述。因此我决定通过这篇文章好好解释一下什么是数据仓库。   按照官方解释:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据

  • 转:ETL讲解(很详细!!!)2019-07-27 13:52:00

    ETL讲解(很详细!!!)   ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关

  • 什么是大数据及其背后的关键技术2019-07-25 22:38:53

    我们每天都在吃饭,睡觉,工作,玩耍,与此同时产生大量的数据。根据IBM调研的说法,人类每天生成2 5亿(250亿)字节的数据。 这相当于一堆DVD数据从地球到月球的距离,涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等。 分析大量数据只是使大数据与以

  • 选型宝访谈:移动+社交时代,如何治理“大数据洪水”?2019-07-19 12:55:39

    写在前面 不管你是否愿意,随着移动互联网和社交工具的普及,一个充满了机遇和挑战的大数据时代悄然来临了。就在大家纷纷谈论数据驱动创新、数据创造价值的时候,仍有许多企业的CIO/CDO在这个新时代面前感到茫然和困惑: 我的企业的数据在哪里?它有什么价值? 数据治理,应该建立怎样的完整框架

  • Hive开发要知道数据仓库的四个层次设计2019-07-18 22:01:43

    数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。 1.数据仓库的四个操作    ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取

  • 大数据平台的服务内容以及猛犸大数据平台近期的思考【摘录】2019-07-18 12:06:22

     猛犸大数据平台经过去年一年的快速发展,已成为公司内多个产品的大数据开发工具的首选,作为一个当初定位为开发门户的这样一个平台网站,以调度管理为核心,将公司内已有的大数据工具进行了整合,提供了可视化的操作界面、统一的用户权限管理机制。洞悉原油开发流程的用户可以在猛犸上找到

  • 数据仓库建设之总方案2019-07-17 15:01:51

    原文链接:http://www.cnblogs.com/ufoet/p/dw.html 数据仓库建设   商务智能(Business Intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓

  • 数据仓库建设之维度建模2019-07-17 15:01:19

    原文链接:http://www.cnblogs.com/ufoet/p/DimensionModeling.html 数据仓库建模方法论   通过上一篇数据仓库建设的全局概览,我们认识了数据仓库,也明确了数据建模在仓库建设中的核心地位,数据仓库模型是整个大厦的基石,也是个难点。这么重要的环节就有必

  • 数据仓库建设之《元数据管理》2019-07-17 15:00:56

    原文链接:http://www.cnblogs.com/ufoet/p/MetadataManagement.html 元数据解决方案   随着业务系统每年收集和使用的数据飞速增长,数据体量日趋增长,数据形态多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是

  • 6 步搭建数据平台—从指标体系到相关技术2019-07-16 11:00:28

    在开始介绍数据平台搭建的流程之前,先简单说说为什么企业需要搭建数据平台。互联网与智能移动设备的迅速发展,使记录并保存用户的每一次日常行为及交易行为成为可能,这些信息以数据的形式保存下来,实现了各行业的商业数据原始积累。为了高效组织和利用海量数据进行商业决策优化,搭建数据

  • [数据分析方法论]数据仓库学习笔记:修炼数据产品经理2019-07-15 18:39:33

    随着企业业务的发展,企业自身的业务系统及其中所存储的数据会变的越来越多,同时业务及运营人员对于日常的指标及数据分析需求也会越来越明显。 这时为了企业能够拥有更好的数据基础来支撑常规的BI系统以便辅助业务决策,一些企业会选择建立企业级的数据仓储系统对公司全部或部

  • Hadoop小结们2019-07-15 18:00:38

    数仓 数据仓库是一个面向主题的、集成的、随着时间变化的、非易失的数据集合,用于支持管理者的决策过程。 数据仓库中的力度是指数据的细节或汇总程度,细节程度越高,粒度几倍越低。 数据仓库的数据来自各个业务应用系统。 很多因素导致直接访问业务系统无法进行全局数据分析工作,这也

  • Hadoop离线(数仓与hive操作1)2019-07-14 19:43:18

    Hadoop离线 1-数据仓库-基本概念和主要特征 基本概念 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。 数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有