Informatica PowerCenter 和 ETL

本文转载自:Informatica基础系列(零)——前言 http://blog.csdn.net/water_0815/article/details/76512470

Informatica PowerCenter,简称 Infa,是一款非常强大的ETL工具,支持各种数据源之间的数据抽取、转换、加载等数据传输,多用于大数据和商业智能等领域。一般应用企业根据自己的业务数据构建数据仓库,通过 Infa 在业务数据和数据仓库间进行 ETL 操作。其中 E(Extract)指数据抽取,T(Transform)指数据转换,L(Load)指数据加载。在挖掘到的这些零碎无规律的原始数据的基础上,进行维度的数据分析,找到用户的习惯和需求,以指导业务拓展及战略转移的方向。

这个系列是一个 Infa 基础入门的介绍,包括导入数据源表/目标表、开发 Mapping 与 Workflow、Workflow 定时运行计划、监控工作流的运行状况、变量与参数、内置函数、环境数据的导入导出(比如从 Trial 环境迁移到 Product)、Infa的备份与恢复等。

Mapping 的开发一般会占据很大的时间比例,它主要负责从数据源表(Source)到目标表(Target)之间的数据转换,利用它的各种组件能够做很多工作,来满足各种转换的需求。 这些组件包括更新策略组件(UPDTRANS)、表达式组件(EXPTRANS)、过滤器组件(FILTRANS)、查找组件(LOOKUP)、联合组件(JNRTANS)、路由组件(RTRTRANS)等。除此之外,还可以开发可重用的Transformation 和 Maplet,避免重复性工作。

下文内容来源于:ETL介绍与ETL工具比较 http://blog.csdn.net/u013412535/article/details/43462537

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL负责将分布的、异构数据源中的数据如关系数据、
平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。

数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以ETL可以定时进行。但多个ETL的操作时间、顺序和成败对数据仓库中信息的有效性至关重要。

ETL中的关键技术
ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。

猜你喜欢

转载自blog.csdn.net/u011144425/article/details/79495369
ETL