用spark模拟拉链表

spark 描述了一下 拉链表的逻辑实现,仅供参考:
1. 加载文本文件为RDD
2.RDD 做map ,主键做key ,key -value 的PairedRDD
3.group by key 
4.flatmapValue  : value list 按照时间排序,填充闭链日期,最后一条填充 2999-01-01
5.输出

猜你喜欢

转载自blog.csdn.net/someInNeed/article/details/90034427