ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Airbnb | 如何应用Druid实现大数据实时批量分析

2021-06-10 22:05:27  阅读:182  来源: 互联网

标签:批量 Druid Airbnb 延迟 数据 我们 加载


640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

挑战和未来的改进

虽然Druid在我们的数据平台架构中为我们提供了很好的服务,但随着我们在公司内部使用Druid的增长,存在新的挑战。

我们处理的问题之一是每天产生的需要加载到集群中的段文件数量的增长。段文件是Druid数据的基本存储单元,包含准备服务的预聚合数据。在Airbnb,我们遇到了一些场景,其中大量的数据源有时需要完全重新计算,导致大量的段文件需要一次加载到集群上。目前,Coordinator在一个线程中集中加载所注入的段。随着越来越多的段生成,Coordinator无法跟上,我们看到注入作业完成的时间与数据可用于查询的时间(协调器加载后)之间的延迟增加。有时延迟可能是几个小时。

通常的解决方案是尝试增加目标段大小,从而减少段数。但是,在我们的使用中,产生较大段的数据输入量(由Hadoop工作者运行摄取任务)是如此之高,以至于Hadoop作业运行太长时间处理该数据,并且由于各种原因很多次会失败。

我们目前正在探索各种解决方案,包括在注入之后以及在将其传递给协调器之前压缩段,以及不同的配置以增加段大小而不会在可能的情况下危害注入作业稳定性。

结论

Druid是一个专为可扩展性,可维护性和性能而设计的大数据分析引擎。其良好的因素架构可轻松管理和扩展Druid部署,其优化的存储格式可实现低延迟分析查询。目前,国外如Google、Facebook、Airbnb、Instgram、Amazon、Pinterest等,国内如阿里巴巴、小米、360、优酷、知乎、数极客等知名互联网公司都在使用Druid,发展势头如火如荼。相信在不久的将来,Druid将成为最重要的OLAP实时分析引擎之一!

本文作者:Pala Muthiah and Jinyang Li,由数极客联合创始人吴江林翻译并整理!

— THE END —

640?wx_fmt=jpeg

标签:批量,Druid,Airbnb,延迟,数据,我们,加载
来源: https://blog.51cto.com/u_14222592/2894208

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有