hive大小表join性能优化

当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。

大小表join时,将小表放在前面,会将小表进行缓存。

mapjoin将小表放入内存,在map端和大表逐一匹配,省去reduce操作

猜你喜欢

转载自www.cnblogs.com/18800105616a/p/11454117.html