华为大数据HCIE数据挖掘--ETL

什么是ETL

在这里插入图片描述
ETL是一个数据管道,负责将分布的、异构的数据(Extract阶段)根据一定的业务规则进行数据清洗、转换、集成(Transform阶段),最终将处理后的数据加载到数据目的地(Load阶段),比如数据仓库。

数据抽取需要注意的点有哪些?

检查数据类型;
确保数据完整;
去除重复数据;
去除脏数据;
确保导出数据属性与源数据一致

数据抽取有哪几种方式

更新抽取
当源系统中有新的数据加入或发生数据更新操作时,系统会发出提醒。这是最简单的一种数据抽取方式。
全量抽取
当数据源中有新的数据加入或发生数据更新操作时,系统不会发出提醒。此时可以采用全量抽取。全量抽取类似于数据迁移或数据复制。它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单,一般只在系统初始化时使用,全量一次后,就要每天采用增量抽取。
增量抽取
当数据源中有新的数据加入或发生数据更新操作时,系统不会发出提醒,但可以识别出更新的数据,此时可以采用增量抽取。增量抽取只抽取自上次抽取以来数据库表中新增或者修改的数据。在ETL中,增量抽取使用更加广泛。

数据加载有哪些方式

全量加载 Full Load
全表清空后再进行数据加载。
从技术角度上说,比增量加载简单。一般只需在数据加载之前,清空目标表,再全量导入源表数据即可。但当源数据量较大 、业务实时性较高时,大批量的数据无法在短时间内加载成功,此时需要与增量加载结合使用。
增量加载 Incremental Load
目标表仅更新源表中变化的数据。
增量加载难度在于更新数据的定位,必须设计明确的规则从数据源中抽取信息发生变化的的数据,并将这些变化的数据在完成相应的逻辑转换后更新到数据目的地中。

增量加载具体有哪些形式

系统日志分析方式
触发器方式
时间戳方式
全表比对方式
增量数据直接或转换后加载

加载方式好坏的评判标准有哪些

可按频率准确地捕获业务系统中的变化数据。
尽量降低对业务系统造成的压力,及对现有业务的影响。
能够很好的实现属性映射。
可快速恢复或回滚数据。

相比较ETL,ELT有哪些优点?

简化ETL架构。数据抽取后无需使用单独的转换引擎,数据转换和消耗在同一个地方。
降低抽取的时间和性能开销。在实际应用中,不同的业务对数据要求存在差异,需要对同一组数据做不同的转换操作。ETL需要多次抽取、转换、加载,而ELT能实现一次抽取、加载,多次转换,实现一份数据多次应用,降低时间和资源开销。

猜你喜欢

转载自blog.csdn.net/qq_37633855/article/details/123618599