HIVE调优之分桶

  • 分桶规则

    • 对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中

  • 分桶优点

    1. 提高join查询效率:

      假设表A和表B进行join,join的字段为id条件:

      • 两个表为大表

      • 两个表都为分桶表

      • A表的桶数是B表桶数的倍数或因子

      这样join查询时候,表A的每个桶就可以和表B对应的桶直接join,而不用全表join,提高查询效率

    2. 提高抽样效率

      • 分桶表后面可以不带on 字段名,不带时默认的是按分桶字段,也可以带,而没有分桶的表则必须带

      • 按分桶字段取样时,因为分桶表是直接去对应的桶中拿数据,在表比较大时会提高取样效率

猜你喜欢

转载自www.cnblogs.com/xiangyuguan/p/11416043.html