ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

什么是数据湖 Data Lake

2021-10-14 10:01:30  阅读:340  来源: 互联网

标签:结构化 关系数据 Data 数据仓库 存储 Lake 数据 Schema


什么是数据湖 Data Lake ?

背景:随着近几年机器学习的兴起对数据的需求更加灵活,如果从数据仓库中提数会有一些问题。比如:数据都是结构化的(做算法的经常要理解数仓模型,甚至要深入到做了什么业务处理,很多处理都不是他们想要的);数据是经过处理的可能并不是算法想要的结果;算法同学与数仓开发同学沟通成本较大等。

 

数据湖定义:

是一个以原始格式(通常是对象块或文件)存储数据的系统或存储库。数据湖通常是所有企业数据的单一存储。用于报告、可视化、高级分析和机器学习等任务。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。

数据湖的特点

1、原始格式

数据仓库里是瓶装的水——清洁的、打包好的、摆放整齐方便取用的;数据湖是原生态的水——它是未经处理的,原汁原味的。

2、单一存储

存储库中会汇总多种数据源,是一个单一库。是由多个数据湖填充而成的水上花园(Water Garden)多个系统的数据进行关联不是数据湖。

3、多用途

用于报告、可视化、高级分析和机器学习。数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水(数据)

数据湖的优势

1、轻松地收集数据:Schema On Read

2、从数据中发掘更多价值,更适用于机器学习

3、消除数据孤岛

4、具有更好的扩展性和敏捷性

数据湖和数据仓库的对比

综述:

数据仓库是一个优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据。事先定义数据结构和 Schema 以优化快速 SQL 查询,其中结果通常用于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单一信息源”。

数据湖有所不同,因为它存储来自业务线应用程序的关系数据,以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或 Schema。这意味着您可以存储所有数据,而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析(如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习)来获得见解。

数据湖并不能替代数据仓库,数据仓库在高效的报表和可视化分析中仍有优势。

说明:图片和文字部分来自亚马逊和网络,由作者整理。

标签:结构化,关系数据,Data,数据仓库,存储,Lake,数据,Schema
来源: https://blog.csdn.net/weixin_43231331/article/details/120757887

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有