ETL-关于缓慢变化维的几种常见解决方法:

缓慢变化维:

维度表里面的数据并非是始终不变的,总会随着时间发生变化。

维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成“缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。

----百度百科

来自:

缓慢变化维的几种常见解决方法

第一种方法,直接在原来维度的基础上进行更新,不会产生新的记录:
1) 更新前:
    emp_rid(代理键)  emp_id(自然键)   emp_name  position
    101212                   12345             Jack         Developer
 
    更新后:
    emp_rid(代理键)  emp_id(自然键)   emp_name  position
    101212                   12345             Jack          Manager
 
 
 
第二种方法,不修改原有的数据,重新产生一条新的记录,这样就可以追溯所有的历史记录:
1) 更新前:
    emp_rid(代理键)  emp_id(自然键)   emp_name  position   start_date   end_date
    101212                 12345             Jack            Developer  2010-2-5    2012-6-12
 
    更新后:
    emp_rid(代理键)  emp_id(自然键)   emp_name  position   start_date   end_date
    201245                 12345             Jack            Manager     2012-6-12
 
 
 
第三种方法,直接在原来维度的基础上进行更新,不会产生新的记录但是只会记录上一次的历史记录:
1) 更新前:
    emp_rid(代理键)  emp_id(自然键)   emp_name  position   old_position   
    101212                 12345             Jack               Developer  null
 
    更新后:
    emp_rid(代理键)  emp_id(自然键)   emp_name  position   old_position
    101212                 12345             Jack               Manager     Developer

ETL面试题

包括:

1. What is a logical data mapping and what does it mean to the ETL team?
什么是逻辑数据映射?它对ETL项目组的作用是什么?

2. What are the primary goals of the data discovery phase of the data warehouse project?
在数据仓库项目中,数据探索阶段的主要目的是什么?

3. How is the system-of-record determined?
如何确定起始来源数据?

4. What are the four basic Data Flow steps of an ETL process?
在ETL过程中四个基本的过程分别是什么?

5. What are the permissible data structures for the data staging area? Briefly describe the pros and cons of each.
在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?

30. Outline some challenges faced by real-time ETL and describe how to overcome them.
简述实时ETL的一些难点及其解决办法。

猜你喜欢

转载自blog.csdn.net/dingguanyi/article/details/84541480