ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

ELK使用系列-1.2 开源日志系统

2021-06-03 09:03:24  阅读:343  来源: 互联网

标签:Flume ELK 1.2 HDFS Kafka 开源 push 日志 数据


常见开源的日志系统有Cloudera的Flume、Facebook的Scribe、Apache的Chukwa、LinkedIn的Kafka和Elasticsearch stack(即ELK)。

  1. Scribe

Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。它最重要的特点是容错性好。其安装非常复杂,主要是因为其依赖的包,需要设置的环境变量非常多,另外,它与Hadoop兼容不好,安装需要技巧。

图 1.1‑3 Scribe系统结构

 

图 1.1‑4 Scribe系统架构

如上图所示,Scribe从各种数据源上收集数据,放到一个共享队列上,然后push到后端的中央存储系统上。当中央存储系统出现故障时,scribe可以暂时把日志写到本地文件中,待中央存储系统恢复性能后,scribe把本地日志续传到中央存储系统上。

  1. Chukwa

Chukwa是一个非常新的开源项目,由于其属于Hadoop系列产品,因而使用了很多Hadoop的组件(用HDFS存储,用MapReduce处理数据),它提供了很多模块以支持Hadoop集群日志分析。Chukwa中主要有3种角色,分别为:adaptor,agent,collector。其架构如下图所示:

图 1.1‑5 Chukwa架构设计

Adaptor可封装其他数据源,包括系统参数数据、应用程序度量数据、Hadoop logs等。

Agent给adaptor提供各种服务,包括:启动和关闭adaptor,将数据通过HTTP传递给Collector;定期记录adaptor状态,以便crash后恢复。

Collector对多个数据源发过来的数据进行合并,然后加载到HDFS中;隐藏HDFS实现的细节,如,HDFS版本更换后,只需修改collector即可。

  1. Kafka

Kafka是2010年12月份开源的项目,采用scala语言编写,使用了多种效率优化机制,整体架构比较新颖(push/pull),更适合异构集群。该系统具有高吞吐率、分布式架构、支持数据加载到Hadoop特点。

Kafka中主要有三种角色,分别为producer(生产推送者),broker(消息中间人)和consumer(日志消费者),其中broker管理一系列topic(消息主题)。

Kafka实际上是一个消息发布订阅系统。producer向某个topic发布推送消息,而consumer订阅某个topic的消息,进而一旦有新的关于某个topic的消息,broker会传递给订阅它的所有consumer。 在Kafka中,消息是按topic组织的,而每个topic又会分为多个partition,这样便于管理数据和进行负载均衡。同时,它也使用了zookeeper进行负载均衡。

图 1.1‑6 Kafka架构设计

  1. Flume

Flume是cloudera于2009年7月开源的日志系统。它内置的各种组件非常齐全,用户几乎不必进行任何额外开发即可使用。

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。

Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具,含有三个核心组件,分别是source、 channel、 sink。通过这些组件, Event 可以从一个地方流向另一个地方,如下图所示

图 1.1‑7 Flume工作流程图

Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区,它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

 

为什么选择ELK作为分布式日志搜索引擎呢?

根据2018年最新出炉的数据引擎排名显示,Elasticsearch已进入前十。对比其他数据引擎,ES在日志分析领域优势显著。

表 1.1‑1 开源分布式日志对比

 

scribe

chukwa

kafka

cloudera

Elasticsearch

实现语言

C/C++

JAVA

scala

java

java

框架

push/push

push/push

push/push

push/push

push/push

容错性

一般

可扩展性

负载均衡

使用zookeeper

使用zookeeper

store

直接支持HDFS

直接支持HDFS

直接支持HDFS

直接支持HDFS

直接支持HDFS

标签:Flume,ELK,1.2,HDFS,Kafka,开源,push,日志,数据
来源: https://www.cnblogs.com/skyroad/p/14843735.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有