首页 > 其他分享> 文章详细

基于Kettle的数据采集原理以及应用过程

2021-11-22 17:31:01 阅读：227 来源： 互联网

标签：基于抽取转换数据源 Kettle 采集清洗数据

基于Kettle的数据采集

本文围绕Kettle是什么，用来做什么，怎么用这三个基本问题

网上的资料是真的匮乏，好难受，都是讲到点上的，但是对于新手来说，需要一个来自面的介绍。自己边学边写，很有可能会有问题，也欢迎指点我的错误，但是为了让自己有动力学下去，持续更新中。。。

Kettle是什么

Kettle 是一款国外开源的 ETL 工具，纯 Java 编写，可以在Windows、Linux和Unix上运行，数据抽取高效稳定，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做，它的数据抽取高效稳定(数据迁移工具)。

Kettle用来做什么

作用：

可以说凡是有数据整合、转换、迁移的场景都可以使用Kettle，他代替了完成数据转换任务的手工编码，降低了开发难度。

同时，我们可以在自己实际业务里，使用它来实现数据的剖析、清洗、校验、抽取、转换和加载等各类常见的ETL类工作。

比如，除了ODS/DW类比较大型的应用外，Kettle实际还可以为中小企业提供灵活的数据抽取和数据处理的功能。Kettle除了支持各种关系型数据库，HBase MongoDB这样的NoSQL数据源外，它还支持Excel、Access这类小型的数据源。并且通过这些插件扩展，kettle可以支持各类数据源。

另外，Kettle的数据处理功能也很强大，除了选择、过滤、分组、连接和排序这些常用的功能外，Kettle里的Java表达式、正则表达式、java脚本、Java类等功能都非常灵活而强大，都非常适合于各种数据处理功能。

应用场景：

表视图模式：这种情况我们经常遇到，就是在同一网络环境下，我们对各种数据源的表数据进行抽取、过滤、清洗等，例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属于这个模式；传统的实现方式一般都要进行研发（一小部分例如两个相同表结构的表之间的数据同步，如果sqlserver数据库可以通过发布/订阅实现），涉及到一些复杂的一些业务逻辑如果我们研发出来还容易出各种bug；
前置机模式：这是一种典型的数据交换应用场景，数据交换的双方A和B网络不通，但是A和B都可以和前置机C连接，一般的情况是双方约定好前置机的数据结构，这个结构跟A和B的数据结构基本上是不一致的，这样我们就需要把应用上的数据按照数据标准推送到前置机上，这个研发工作量还是比较大的；
文件模式：数据交互的双方A和B是完全的物理隔离，这样就只能通过以文件的方式来进行数据交互了，例如XML格式，在应用A中我们开发一个接口用来生成标准格式的XML，然后用优盘或者别的介质在某一时间把XML数据拷贝之后，然后接入到应用B上，应用B上在按照标准接口解析相应的文件把数据接收过来；

PS:按照个人见解，kettle所做的事情，就是对数据进行各种处理，包括对数据进行清洗校验等，本人使用最多的场景，应该是对数据库的数据进行抽取并清洗，通过一个库抽取到另一个库的表，抽取过来后，通过存储过程进行数据清洗，将接口表数据通过业务逻辑的清洗，最终到落地表中。至于为什么要这么做，因为在实际业务中，很有可能会依赖到另一个系统的数据，一般而言，是不允许直接读取另一个系统的源表数据的，更别提直接对数据进行编写代码来用作调整。

Kettle怎么用

Kettle Spoon简介
Kettle官网：http://kettle.pentaho.org/

下载的最新版本的kettle是：pdi-ce-7.1.0.0-12

官方入门文档：https://wiki.pentaho.com/display/EAI/Getting+Started

ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程），对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，了解并掌握一种etl工具的使用，必不可少，支持图形化的GUI设计界面，然后可以以工作流的形式流转，在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现，使用它减少了非常多的研发工作量，提高了我们的工作效率。

ETL工具-Kettle Spoon教程，关于工具，这篇文章介绍比较完全，不做很详细的介绍。

Kettle 专业术语：

Transformation 转换步骤，可以理解为将一个或者多个不同的数据源组装成一条数据流水线。然后最终输出到某一个地方，文件或者数据库等。
Job 作业，可以调度设计好的转换，也可以执行一些文件处理（比较，删除等），还可以 ftp 上传，下载文件，发送邮件，执行 shell 命令等
Hop 连接转换步骤或者连接 Job（实际上就是执行顺序）的连线 Transformation hop：主要表示数据的流向。从输入，过滤等转换操作，到输出。
```
Job hop：可设置执行条件： 1， 无条件执行  2， 当上一个 Job 执行结果为 true 时执行  3， 当上一个 Job 执行结果为 false 时执行
```

Kettle中有两种脚本文件，transformation（转换ktr结尾）和job（任务kjb结尾），transformation完成针对数据的基础转换，job则完成整个工作流的控制（工作流程首先由个开始节点【可以设置定时执行】可以选择transformation）。

在这里插入图片描述

Kettle使用实例

目标，完成，从一个库到另一个库的数据抽取，并进行清洗，以oracle数据库为例。

-----2021.11.22------

标签：基于,抽取,转换,数据源,Kettle,采集,清洗,数据
来源： https://blog.csdn.net/qq_40544575/article/details/121472078

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9