MR的join连接操作

  多表连接:将连接键(id)作为k2,v2采用自定义的Writable,writable中包含以下字段:标志位字段+业务字段(可能多个);reduce端做笛卡尔积。

  自连接(单表关联):对于给定的数据的key value 调换,并作些标记予以区别。

  map端连接:

    1.前提条件:小表尽可能小,一般情况在几十兆下;

    2.DistributedCache:分布式缓存

猜你喜欢

转载自www.cnblogs.com/lyr999736/p/9381701.html