ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

大数据 Flink部落 1

2020-04-02 16:03:02  阅读:214  来源: 互联网

标签:框架 部落 批处理 Flink Hadoop 处理 数据 分布式


宏观介绍大数据几个基本概念


(刚入大数据的大门,让每一篇文章陪伴我的成长,希望看了文章的同学能够共同进步,相互交流,也希望发现错误能够指正,也希望能和大家一同交流讨论QQ:1793655668)

大数据存储系统

大数据两个主要的存储系统:HDFS和Hbase

  • HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。
  • HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。
    HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。

大数据批处理系统

批处理比较热门的大数据框架是Hadoop和Spark

  • Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
  • Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。

Hadoop和Spark的最基本的区别:hadoophe spark 这二者都是大数据框架,即便如此二者各自存在的目的是不同的。Hadoop是一个分布式的数据基础设施,它是将庞大的数据集分派到由若干台计算机组成的集群中的多个节点进行存储。Spark是一个专门用来对那些分布式存储的大数据进行处理的工具,spark本身并不会进行分布式数据的存储。

大数据流处理系统

流处理比较热门的大数据框架是Storm和Flink

  • Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点。
    按照storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语,使我们的批处理程序变得简单和高效。同样,Storm也为实时计算提供了一些简单高效的原语,而且Storm的Trident是基于Storm原语更高级的抽象框架,类似于基于Hadoop的Pig框架,让开发更加便利和高效。
  • Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理。Apache Flink作为一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎,是当前实时处理领域的一颗炙手可热的新星。

简要分析批处理和流处理

  • 批处理:有界(有限集合),持久(数据存储在某种类型的持久存储位置中),大量(批处理通常是处理极为海量数据集的唯一方法)。
    一般需要支持高吞吐,高效处理。
  • 流处理:简单说就是来一个处理一个;可以处理无限量的数据;处理的工作基于事件;处理结果立即可用。
    一般需要支持低延迟,毫秒级。

简单谈谈四大框架

在批处理中,Hadoop具有更加强大的体系,也是逐渐成为主流;而在流处理中,Flink正在逐渐成为主流,因为flink有着比storm更加先进的框架,而且Flink是支持批处理和流处理。
最后,大家可以自己去详细了解他们的相同之处以及区别。
在许多大公司中,这是支撑亿万数据的基本平台。有人说,大数据会是今后最甜的蛋糕之一

标签:框架,部落,批处理,Flink,Hadoop,处理,数据,分布式
来源: https://blog.csdn.net/weixin_43648214/article/details/105243537

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有