ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

可视化编排的数据集成和分发开源框架Nifi轻松入门

2022-12-30 16:23:40  阅读:453  来源: 互联网

标签:dataflow 系统失败 网络故障 icode9 NiFi 数据 磁盘卷


dataflow面临挑战

  • 系统失败:网络故障,磁盘故障,软件崩溃,人为犯错。
  • 数据访问超过了消费能力:有时,给定数据源的速度可能超过处理或交付链的某些部分,而只需要某一个环节出现问题,整个流程都会受到影响。
  • 超出边界问题:总是会得到太大、太小、太快、太慢、损坏、错误或格式错误的数据。
  • 现实业务或需求变化快:设计新的数据处理流程或者修改已有的数据处理流程必须要够敏捷。
  • 难以在测试环境模拟生产环境数据。

特性

Apache NiFi支持数据路由、转换和系统中介逻辑的强大且可伸缩的有向图。

  • 基于浏览器的用户界面:设计、控制、反馈和监控的无缝体验。
  • 数据来源跟踪:完整从开始到结束跟踪信息。
  • 丰富的配置
    • 容错和保证交付
    • 低延迟,高吞吐量
    • 动态优先级
    • 流配置的运行时修改
    • 背压控制
  • 可扩展的设计
    • 定制处理器和服务的组件体系结构
    • 快速开发和迭代测试
  • 安全通信
    • HTTPS,具有可配置的身份验证策略
    • 多租户授权和策略管理
    • 用于加密通信的标准协议,包括TLS和SSH

核心概念

  • FlowFile:表示在系统中移动的每个对象,对于每个对象,NiFi跟踪键/值对属性字符串的映射及其零或多字节的相关内容。
    • 每一块“用户数据”(即用户带入NiFi进行处理和分发的数据)都被称为一个FlowFile。
    • 一个FlowFile由两部分组成:属性和内容。内容就是用户数据本身。属性是与用户数据相关联的键值对
  • FlowFile Processor:处理器实际执行工作,处理器是在系统之间进行数据路由、转换或中介的某种组合。处理器可以访问给定的FlowFile及其内容流的属性。处理器可以在给定的工作单元中操作零个或多个flowfile,并提交该工作或回滚。
    • 处理器是NiFi组件,负责创建、发送、接收、转换、路由、拆分、合并和处理流文件。它是NiFi用户用于构建数据流的最重要的构建块。
  • Connection:连接提供处理器之间的实际链接。充当队列,允许各种进程以不同的速率进行交互。这些队列可以动态地划分优先级,并且可以设置负载上限,从而启用背压。
  • Flow Controller:流控制器维护进程如何连接,并管理所有进程使用的线程及其分配。流控制器充当了促进处理器之间流文件交换的代理。
  • Process Group:进程组是一组特定的进程及其连接,这些进程可以通过输入端口接收数据,通过输出端口发送数据。通过这种方式,流程组允许通过简单地组合其他组件来创建全新的组件。

这种设计模型帮助NiFi成为构建强大且可伸缩的数据流的非常有效的平台,其好处如下:

  • 很好地用于处理器有向图的可视化创建和管理。
  • 本质上是异步的,允许非常高的吞吐量和自然缓冲,即使处理和流速率波动。
  • 提供了一个高度并发的模型,开发人员不必担心并发性的典型复杂性。
  • 促进内聚和松散耦合组件的开发,这些组件可以在其他上下文中重用,并促进可测试单元的开发。
  • 资源受限的连接使得诸如回压和压力释放等关键功能非常自然和直观。
  • 错误处理变得像快乐之路一样自然,而不是粗粒度的一刀切。
  • 数据进入和退出系统的点以及它如何流经系统都很容易理解和跟踪。

架构

NiFi的设计目的是充分利用它所运行的底层主机系统的功能,对IO、CPU、RAM高效使用,这种资源最大化在CPU和磁盘方面表现得尤为突出,详细信息在管理指南中的最佳实践和配置技巧中。

image-20221213150613979

NiFi在主机操作系统上的JVM中执行,JVM上NiFi的主要组件如下:

  • Web Server:web服务器的目的是承载NiFi基于http的命令和控制API。
  • Flow Controller:流量控制器是操作的大脑,它为要运行的扩展提供线程,并管理扩展何时接收要执行的资源的调度。
  • Extensions:各种类型的NiFi扩展,这里的关键点是扩展在JVM中操作和执行。
  • FlowFile Repository:流文件存储库是NiFi跟踪当前流中活动的给定流文件状态的地方。存储库的实现是可插入的。默认方法是位于指定磁盘分区上的持久预写日志。
  • Content Repository:内容存储库是一个给定的FlowFile的实际内容字节所在的地方。存储库的实现是可插入的。默认的方法是一种相当简单的机制,即在文件系统中存储数据块。可以指定多个文件系统存储位置,以便使用不同的物理分区,以减少任何单个卷上的争用。
  • Provenance Repository:源头存储库是存储所有源头事件数据的地方。存储库结构是可插入的,默认实现是使用一个或多个物理磁盘卷。在每个位置中,事件数据都被索引并可搜索。

NiFi也能够在集群中运行,NiFi 采用了零领导者集群,NiFi集群中的每个节点在数据上执行相同的任务,但每个节点操作不同的数据集。Apache ZooKeeper选择一个节点作为Cluster Coordinator,故障转移由ZooKeeper自动处理。所有集群节点都向集群协调器报告心跳和状态信息。集群协调器负责断开和连接节点。此外,每个集群都有一个主节点,也由ZooKeeper选举产生。作为DataFlow管理器,可通过任何节点的用户界面(UI)与NiFi集群交互,操作更改复制到集群中的所有节点,允许多个入口点。

image-20221213151506874

高级概述

Nifi高级概述包括流管理、易用性、安全性、可扩展的体系结构和灵活的伸缩模型。

  • 流量管理
    • 保证交付:NiFi的核心理念是,即使规模非常大,也必须保证交付。这是通过有效使用专门构建的持久预写日志和内容存储库来实现的。它们一起被设计成这样一种方式,允许非常高的事务率、有效的负载分散、写时复制,并发挥传统磁盘读/写的优势。
    • 带背压和压力释放的数据缓冲:NiFi支持对所有排队的数据进行缓冲,并在这些队列达到指定的限制时提供回压,或者在数据达到指定的年龄(其值已经消亡)时使其老化。
    • 优先队列:NiFi允许为如何从队列中检索数据设置一个或多个优先级方案。默认情况下是最早的先提取,但有时应该先提取最新的数据,先提取最大的数据,或者其他一些自定义方案。
    • 特定于流的QoS(延迟v吞吐量,损失容忍度等):在数据流中,有些点的数据是绝对关键的,并且是不能容忍损失的,需要实时处理和交付,才能具有任何价值,NiFi支持这些关注点的细粒度流特定配置。
  • 易用性
    • 可视化管理:数据流可能变得相当复杂。能够可视化这些流程并以可视化的方式表达它们可以极大地帮助降低复杂性,并确定需要简化的区域。NiFi不仅可以可视化地建立数据流,而且可以实时地实现。对数据流进行更改立即生效。
    • 流模板:数据流往往是高度面向模式的,模板允许主题专家构建和发布他们的流设计,并让其他人从中受益和协作。
    • 数据源:当对象流经系统时,NiFi自动记录、索引并提供来源数据,即使是在扇入、扇出、转换等过程中也是如此。这些信息对于支持遵从性、故障排除、优化和其他场景非常重要。
    • 恢复/记录细粒度历史的滚动缓冲区:NiFi的内容存储库被设计成历史的滚动缓冲区。数据只有在内容存储库老化或需要空间时才会被删除。这与数据来源功能相结合,形成了一个非常有用的基础,可以在对象生命周期(甚至可以跨越几代)的特定点上实现点击内容、下载内容和重播。
  • 安全
    • 系统到系统:数据流需要安全保障,数据流中的每个点上的NiFi通过使用带有加密协议(如2-way SSL)提供安全交换。此外,NiFi使流能够加密和解密内容,并在发送方/接收方等式的任何一方使用共享密钥或其他机制。
    • 系统用户:NiFi支持双向SSL身份验证,并提供可插拔授权,以便在特定级别(只读、数据流管理器、管理)正确控制用户的访问。如果用户将敏感属性(如密码)输入到流中,它将立即在服务器端加密,并且即使以加密形式也不会再次在客户端公开。
    • 多租户授权:给定数据流的权限级别应用于每个组件,允许admin用户拥有细粒度级别的访问控制。这意味着每个NiFi集群都能够处理一个或多个组织的需求。与孤立的拓扑相比,多租户授权支持数据流管理的自助服务模型,允许每个团队或组织管理流,同时充分了解他们无法访问的其余流。
  • 可扩展体系结构
    • 扩展:NiFi的核心是为扩展而构建的,因此它是一个平台,数据流进程可以在其上以可预测和可重复的方式执行和交互。扩展点包括:处理器、控制器服务、报告任务、优先级和客户用户界面。
    • 类加载器隔离:对于任何基于组件的系统,依赖关系问题都可能很快发生。NiFi通过提供自定义类加载器模型来解决这个问题,确保每个扩展包只暴露给非常有限的一组依赖项。
    • 点到点通信协议:NiFi实例之间的首选通信协议是NiFi Site-to-Site (S2S)协议。S2S可以轻松地将数据从一个NiFi实例传输到另一个NiFi实例,轻松、高效、安全。NiFi客户端库可以很容易地构建并捆绑到其他应用程序或设备中,通过S2S与NiFi通信。在S2S中,基于套接字的协议和HTTP(S)协议都被支持作为底层传输协议,这使得在S2S通信中嵌入代理服务器成为可能。
  • 灵活缩放模型
    • 水平扩展(聚类):NiFi被设计为通过使用如上所述的群集多个节点来向外扩展。如果将单个节点配置为每秒处理数百MB,则可以将普通集群配置为每秒处理GB。
    • 扩缩容:NiFi还被设计成以非常灵活的方式扩大和缩小,从NiFi框架的角度来看,在配置时,可以在Scheduling选项卡下增加处理器上并发任务的数量。

标签:dataflow,系统失败,网络故障,icode9,NiFi,数据,磁盘卷
来源:

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有