hive 中 join操作底层mr图解

join分为mapjoin 和 common(普通) join

mapjoin 就是没有reduce阶段,只有map阶段,在map阶段进行join操作.

common join 是在reduce阶段进行join操作,整个过程包括map shuffle reduce.

以common join为例:

Map阶段

读取源表的数据,Map输出时候以 Join on 条件中的列为作为key,如果Join有多个关联键,则以这些关联键的组合作为key;

Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列;同时在value中还会包含表的 Tag 信息,用于标明此value对应哪个表;

按照key进行排序;

Shuffle阶段
根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中,这样确保两个表中相同的key位于同一个reduce中

Reduce阶段
根据key的值完成join操作,期间通过Tag来识别不同表中的数据。

表a:

id name
1 小王
2 小张

表b:

id age
1 32
2 22
select a.id,name,age from a join b on a.id=b.id;

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_47699191/article/details/115266572