ETL之Kettle学习笔记——初始Kettle

ETL之Kettle学习笔记——初始Kettle

ETL介绍

​ ETL即Extract-Transform-Load的缩写,意为数据抽取、转换和装载,ETL是数据仓库的核心和灵魂,是负责完成数据从源数据向目标数据仓库转化的过程,是实施数据仓库的重要步骤。说得直白一点就是数据清洗和装载的一个过程。

​ ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过清洗,最终按照预先定义好的数据仓库模型,将数据装载到数据仓库中去。

Kettle介绍

​ ETL是数据抽取、转换、装载的过程,那么Kettle就是操作这个ETL过程的工具。

Kettle是一款国外免费开源的、可视化的、功能强大的ETL工具,纯Java编写,可在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。它允许你管理来自不同数据库的数据和各种文件格式(txt、excel等)的抽取。

​ 现在Kettle已加入了开源的BI组织Pentaho,正式命名为Pentaho Data Integeration(PDI)。

​ Kettle拥有两种脚本,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle家族四大工具

在这里插入图片描述

  • Spoon–转换(transformation)设计工具,一个图形化的工具,它使一个ETTL过程转换的设计易于创建。它执行典型的数据流功能,如读取,验证,优化,转换,将数据写入各种不同的数据源和目标。Spoon中设计的转换(transformations)可以与Pan和Kitchen一起运行,转换(transformation)是通过Pan工具运行,任务(Job)是通过Kitchen运行。

  • Pan–转换(transformation)执行器(命令行模式),是专用于运行Spoon设计的数据转换的应用程序,例如:从不同的数据源读取、操作和写入数据。

  • Chef–工作(job)设计工具,一种用于创建作业的工具,可以以复杂的方式自动执行数据库更新过程。

  • Kitchen–工作(job)执行器(命令行模式),是一个应用程序,可帮助你以批处理方式执行Job,通常使用时间表来简化启动和控制ETL处理的过程。

    在Kettle加入Pentaho组织后,Pentaho Data Integration加了一个组件

    • Carte–Web服务器,允许通过Web浏览器远程监视正在运行的Pentaho Data Integration ETL流程。

Kettle的安装

在这里插入图片描述

  • 启动成功

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_41422941/article/details/110532405