-
-
对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中
-
-
分桶优点
-
提高join查询效率:
假设表A和表B进行join,join的字段为id条件:
-
两个表为大表
-
两个表都为分桶表
-
A表的桶数是B表桶数的倍数或因子
这样join查询时候,表A的每个桶就可以和表B对应的桶直接join,而不用全表join,提高查询效率
-
-
提高抽样效率
-
分桶表后面可以不带on 字段名,不带时默认的是按分桶字段,也可以带,而没有分桶的表则必须带
-
按分桶字段取样时,因为分桶表是直接去对应的桶中拿数据,在表比较大时会提高取样效率
-
-
HIVE调优之分桶
猜你喜欢
转载自www.cnblogs.com/xiangyuguan/p/11416043.html
今日推荐
周排行