前言
Pentaho Data Integration (PDI):前身是Kettle。Pentaho提供了提取、转换和加载(ETL)功能,该功能使用统一且与最终用户和物联网技术相关且可访问的格式简化了捕获、清理和存储数据的过程。
功能:提供报表的制作、分析、仪表板、数据集成、数据采集、商业智能平台等强大功能。
一、下载
(更新:发现了Pentaho国内镜像下载地址:
Pentaho 7.1版本:
http://mirror.bit.edu.cn/pentaho/Data%20Integration/7.1/
Pentaho 8.2版本
http://mirror.bit.edu.cn/pentaho/Pentaho%208.2/client-tools/
官网地址:http://www.pentaho.com/ 不过已经访问不到了
文档地址:https://help.pentaho.com/Documentation/7.1/0D0/Pentaho_Data_Integration
下载地址:https://sourceforge.net/projects/pentaho/files/ 下载很慢还不一定成功
网上资料较少,可以考虑下载7.1的版本,因为网上还能找到资料,我也是7.0版本
下载解压后是一个data-integration文件夹
文件内部目录
二、配置
直接启动服务是一定会失败的
1.JDK环境
7.1的最高JDK版本为1.8,所以太高的用不了
- 官网下载JDK1.8(建议下载免安装版)
- 解压到相应的目录,我的目录是:
C:\Program Files\Java\jdk1.8.0_181
- 配置JDK
方式一:配置环境变量:JAVA_HOME
PENTAHO_JAVA_HOME
方式二:data-integration目录下Spoon.bat/Spoon.sh文件中设置变量值:win选.bat
2.添加mysql-jdbc驱动
a. 下载驱动:https://dev.mysql.com/downloads/connector/j/
(pentaho版本选中驱动版本,当前pentaho7.1,jdbc5.+.)
b. 将下载的驱动jar包放入data-integration\lib
三、启动
启动文件
文件夹下的bat文本或sh文件
- Spoon: transform设计工具 (GUI)
- Carte:用来远程执行转换和作业
- kitche:任务工作(job)执行器
- pan:trasform执行器 (命令行)