数仓

1、数仓血缘关系: 首先ods层表数据是数仓源表数据,然后通过一些sql操作ods层数据A,得到表数据B,再通过一些sql操作ods层数据B,得到C
这个A, B, C之间就存在血缘关系。类似于spark的父RDD和子RDD的关系
2、如果etl处理的日志是从kafka推过来的,有可能会出现日志重复的情况,需要在spark程序中对日志进行distinct

发布了9 篇原创文章 · 获赞 0 · 访问量 110

猜你喜欢

转载自blog.csdn.net/laojingyao/article/details/104087046