《Kettle构建Hadoop ETL系统实践》简介

#好书推荐##好书奇遇季#Kettle构建Hadoop ETL系统实践》,京东当当天猫都有发售。定价79元,网店打折销售其实没多少钱。

Kettle是一款国外开源的ETL工具,纯Java编写,无须安装,功能完备,数据抽取高效稳定。本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程,所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。我们仍然以CDH作为Hadoop平台,沿用相同的销售订单示例进行说明,因此可以将本书当作《Hadoop构建数据仓库实践》的另一版本。

本书内容

全书共分10章,主要内容包括ETLKettle的基本概念、Kettle安装与配置、KettleHadoop的支持、建立ETL示例模型、数据转换与装载、定期自动执行ETL作业、维度表技术、事实表技术,以及Kettle并行、集群与分区技术。

为什么选用Kettle

面对各种各样的ETL开发工具,之所以选择Kettle,主要由于它的一些鲜明特性。首先,很明确的一点是,作为一款GUI工具,Kettle的易用性好,编码工作量最小化。几乎所有的功能都可以通过用户界面完成,提高了ETL过程的开发效率。其次,Kettle的功能完备。书中演示所用的Kettle 8.3版本几乎支持所有常见的数据源,并能满足ETL功能需求的各种转换步骤与作业项。第三,Kettle是基于Java的解决方案,天然继承了Java的跨平台性,只要有合适的JVM存在,转换或作业就能运行在任何环境和平台之上,真正做到与平台无关。最后,Kettle允许多线程与并发执行,以提高程序执行效率。用户只需指定线程数,其他工作都交给Kettle处理,实现细节完全透明化。

本书读者

本书既适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。

本书作者

王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。

目录

第1章  ETL与Kettle

第2章  Kettle安装与配置

第3章  Kettle对Hadoop的支持

第4章  建立ETL示例模型

第5章  数据抽取

第6章  数据转换与装载

第7章  定期自动执行ETL作业

第8章  维度表技术

第9章  事实表技术

第10章  并行、集群与分区

猜你喜欢

转载自blog.csdn.net/brucexia/article/details/123897289