ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

ETL_Kettle简介

2021-12-20 16:02:51  阅读:216  来源: 互联网

标签:同步 简介 表到 Kettle job 执行 transformation ETL


ETL_Kettle简介

kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。
Kettle中有两种脚本文件,transformation和job。
transformation完成针对数据的基础转换,job则完成整个工作流的控制.
在这里插入图片描述在这里插入图片描述
Kettle下载地址:
https://sourceforge.net/projects/pentaho/files/Data%20Integration/

Kettle启动
Kettle是绿色软件, 解压缩到任意本地路径, 双击Spoon.bat 就能启动 Kettle 。

Kettle使用要点:
- Kettle组件类型基本说明transformation/job
- Kettle大数据组件的应用说明
- 基于表对表的同步
- 基于表到hdfs的同步
- 基于文件到hdfs的同步
- 基于表到hive的同步
- 基于表到hbase的同步
- 基于文件到hbase的同步
- 基于表到phoenix的同步
- Kettle中sqoop的调用
- Kettle中JavaScript的基本应用
- 作业调用作业及转换**

Kettle组件类型基本说明transformation/job

  1. Kettle设计好后可产出两种脚本文件,transformation(转换,后缀为.ktr)和job(作业,后缀为.kjb),这两类脚本都是xml格式。
  2. Transformation完成针对数据的基础转换,作用和地位类似于DataStage中的Job。
  3. Job则完成整个工作流的控制,作用和地位类似DataStage中的Sequence。
    注:一般程序使用job开发即可,但针对大数据相关程序可以使用Transformation开发,然后使用job去封装。
  4. 作业,可串行执行或并行执行。 串行执行,一条线,按步先后执行;两条线,则先执行完其中一条线再执行另一条线。并行执行,两条线同时执行,执行结果,true(成功)或false(失败),根据执行结果可控制流程走向:
    在这里插入图片描述
  5. 转换,一开始,所有步骤同时运行,记录从最前端的步骤向后传递,传递到相应步骤则记录被该步骤做相应处理,处理完成再往后传递。(如果不做连接,优先执行SQL)

参考文章:
【kettle 教程(一):简介及入门】https://blog.csdn.net/qqfo24/article/details/82190535

标签:同步,简介,表到,Kettle,job,执行,transformation,ETL
来源: https://blog.csdn.net/weixin_45728126/article/details/122039171

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有