【Hive】Hive 一些面试题

在这里插入图片描述

1.概述

Hive 表关联查询,如何解决数据倾斜的问题?

1)倾斜原因: map 输出数据按 key Hash 的分配到 reduce 中,由于 key 分
布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的
数据量差异过大。
( 1) key 分布不均匀;
( 2)业务数据本身的特性;
( 3)建表时考虑不周;
( 4)某些 SQL 语句本身就有数据倾斜;
如何避免:对于 key 为空产生的数据倾斜,可以对其赋予一个随机值。

2)解决方案

( 1)参数调节:

hive.map.aggr = true
hive.groupby.skewindata=

猜你喜欢

转载自blog.csdn.net/qq_21383435/article/details/125578516
今日推荐