大数据 - ETL工具之Kettle初学者入门

来源:微信公众号 - DD程序鹅 
原文:https://mp.weixin.qq.com/s/SPzNk6wi_y4gcs91ClPMxw
版权声明:本文为博主原创文章,转载请附上原文链接!

更多系列可以搜索上面公众号,提前查阅。

说到ETL相信大家都不陌生,也就是数据的提取、转换和加载功能,相信小伙伴在工作中都有做过或者使用过ETL工具。

该篇介绍的ETL工具可能有的小伙伴在数据同步、数据迁移、数据清洗等时已经使用过,它就是Kettle。

ETL也是初入大数据领域必备技能。

ETL工具

Kettle使用突破性的元数据驱动方法提供强大的提取、转换和加载(ETL)功能。

可运行在Window、Linux、Unix上。

Kettle是个ETL工具集,管理不同数据库的数据,提供一个可视化的开发工具。

Kettle有两种脚本文件,Transformation和Job

Transformation:用于完成针对数据的基础转换。

Job:用于完成整个工作流的控制。

Kettle更名为PDI(Pentaho Data Integration)Pentaho数据集成。

Kettle结构

图片

Spoon是构建ETL Jobs和Transformations的工具。Spoon以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。

Data Integration Server是一个专用的ETL Server,主要功能有:

1、执行:通过PDI引擎执行ETL的作业或转换。

2、安全性:管理用户、角色或集成的安全性。

3、内容管理:提供一个集中的资源库,用来管理ETL的作业和转换,资源库包含所有内容和特征的历史版本。

4、时序安排:在spoon设计者环境中提供管理Data Integration Server上的活动的时序和监控的服务。

Enterprise Console(企业控制台)提供了一个小型的客户端,用于管理Pentaho Data Integration企业版的部署。

包含企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动、分析已登记的作业和转换的动态绩效。

Kettle核心组件

Spoon:通过图形接口,用于编辑作业和转换的桌面应用。

Pan:一个独立的命令程序,用于执行由Spoon编辑的转换和作业。

Kitchen:一个独立的命令程序,用于执行由Spoon编辑的作业。

Carte:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server(分布式集群)。

Kettle概念模型

图片

Kettle的执行分为两个层次:Job(作业)和Transformation(转换)。

往期精彩回顾

「Java设计模式」行为型:策略模式
「Java设计模式」结构型:代理模式
Java设计模式:认识统一建模语言UML

JVM:虚拟机方法调用(理解重载和重写的本质)

猜你喜欢

转载自blog.csdn.net/liuziyingbeidou/article/details/115119067
今日推荐