关于ETL、ODS的一些搜索结果总结与认识

以下内容绝大部分为网上搜索得到,个人对搜索结果进行了整理、排序和加工,里面转载部分的内容,版权归原作者所有。

ETL是一个过程,就是数据的抽取,转换,加载,现在中间都有个数据清洗的过程。

ODS通俗将是ETL后最先进入的一个数据仓库,之前的数据可能包含DB2,SQL SERVER,ORACLE等不同类型的数据源,通过ETL后,进入统一的数据库中,这个库就是ODS,里面只是存放了清洗过后的数据,格式,编码等统一。后面会根据不同的行业和需求,进SOR数据仓库,再向下游提供数据,期间会有各种逻辑啊,修改自己需要的数据,打乱原有表结构重新组合。

DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,由淘宝数据平台部门完成。
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

DataX是Linux平台命令行界面的,以下是使用流程示例

数据仓库品牌
传统领域DW方面国内就没啥好产品,互联网公司像阿里的云梯腾讯的TDW还不错。
南大通用的GBase 8a
有白皮书,已下载
GBase 8a分析型数据库的主要市场是商业分析和商业智能市场。产品主要应用在政府、党委、安全敏感部门、国防、统计、审计、银监、证监等领域,以及电信、金融、电力等拥有海量业务数据的行业。

Informatica数据仓库:Oracle的,应该是最大最好的一个品牌
关于Informatica数据仓库使用流程的一个介绍




猜你喜欢

转载自blog.csdn.net/cookie587477/article/details/65441550