ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

一文搞懂什么是数据湖(data lake)?

2022-01-19 21:30:14  阅读:199  来源: 互联网

标签:20 data 科学家 lake 用户 text 搞懂 数据 可以


    data lake数据湖,最早由Pentaho的CTO,James Dixon发明。他在博客中这样描述数据湖:如果你把数据集市看作是一家售卖干净的、规整包装的、便于消费的瓶装水的商店,那么数据湖就是更自然状态下的一大片水域。数据湖的内容从一个源头流入,各类用户可以前来检查,探索或者取样。
    ![在这里插入图片描述](https://www.icode9.com/i/ll/?i=f84b74d9b18244ef8cd9953830407ae4.png?,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5rW36IulW01BVFJJWF0=,size_20,color_FFFFFF,t_70,g_se,x_16)
    数据湖最重要的特点有两个,第一个是自然,第二个是可以被各类用户使用。
    我们先讲何为自然,自然在这里指自然而然,未经处理,原始状态。就像一大片湖水一样,原生态。类比到数据,就是原生的数据,未经任何转换和加工。那么我们得到原汁原味的数据有什么意义那,传统的etl为什么不再适用新的业务场景。究其根本,是数据科学家对数据有了更高的需求。随着硬件的快速升级换代,机器学习以及深度学习技术,越来越多的被数据科学家使用。舌尖上的中国,讲高端的食材,不需要特殊的烹饪方法。在此,我们讲,高端的算法往往需要数据保留原始样子,这样数据科学家可以选择更多的特征去训练模型。多年前,我在参与一个人工智能项目时,就曾经因为数据生产出来后,清洗掉了一些关键特征,导致后来花了大量人力去重新让数据拥有那些特征。
    ![在这里插入图片描述](https://www.icode9.com/i/ll/?i=c424f9ad7a074af5a4e0180edce9cd41.png?,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5rW36IulW01BVFJJWF0=,size_20,color_FFFFFF,t_70,g_se,x_16)
    再讲被各类用户使用,数据湖拥有原始的数据和经过脱敏以及处理过的数据,这让不同的用户可以从数据湖活的想要的数据。数据分析师可以借助BI工具对简单处理的数据做快速的分析。数据科学家可以顺利的拿到原始数据,去做更高层级的加工分析,不会因为想要的数据被清洗掉了而无能为力。数据湖将被更多类型的用户使用,而不是仅仅服务于一两个web页面。

    总结一下,数据湖是原始数据以及处理过数据的有机集合体,且更强调原汁原味的数据,可以满足不同用户群体的自助使用需求。

标签:20,data,科学家,lake,用户,text,搞懂,数据,可以
来源: https://blog.csdn.net/qq_34321590/article/details/122589475

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有