1、数仓血缘关系: 首先ods层表数据是数仓源表数据,然后通过一些sql操作ods层数据A,得到表数据B,再通过一些sql操作ods层数据B,得到C
这个A, B, C之间就存在血缘关系。类似于spark的父RDD和子RDD的关系
2、如果etl处理的日志是从kafka推过来的,有可能会出现日志重复的情况,需要在spark程序中对日志进行distinct
数仓
猜你喜欢
转载自blog.csdn.net/laojingyao/article/details/104087046
今日推荐
周排行