map端做join 和 reduce 端的join 对比

reduce 端的join
缺点:
1.容易发生数据倾斜
2.reduce本身并行度不高,性能不高(个数datanode*0.95)
3.reducejoin需要结合list,本身存在性能瓶颈

map端做join
优势:
1.mapjoin的并行度高
2.可以有效的避免数据倾斜
实现技术:

@Override
protected void setup(Context context) throws IOException, InterruptedException {
//在map 方法执行前执行仅执行一次,可用于初始化加载分布式缓存中的数据用来做map端的join

 }

流程:
至少一个表读取一行数据,另一个表读取所有数据
使用setup先把表数据读取出来,读取到map集合中,key:关联字段 value:剩下字段

缺点:
1.需要一个表所有数据加载到缓存中,不能太大
2.仅仅适用于大小表,小小表关联

大大表的关联:
1.reducejoin可以解决关联问题,但不完美
2.将其中一个大表进行切分,成多个小表再进行关联

猜你喜欢

转载自blog.csdn.net/weixin_39979119/article/details/85041438