join分为mapjoin 和 common(普通) join
mapjoin 就是没有reduce阶段,只有map阶段,在map阶段进行join操作.
common join 是在reduce阶段进行join操作,整个过程包括map shuffle reduce.
以common join为例:
Map阶段
读取源表的数据,Map输出时候以 Join on 条件中的列为作为key,如果Join有多个关联键,则以这些关联键的组合作为key;
Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列;同时在value中还会包含表的 Tag 信息,用于标明此value对应哪个表;
按照key进行排序;
Shuffle阶段
根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中,这样确保两个表中相同的key位于同一个reduce中
Reduce阶段
根据key的值完成join操作,期间通过Tag来识别不同表中的数据。
表a:
id | name |
---|---|
1 | 小王 |
2 | 小张 |
表b:
id | age |
---|---|
1 | 32 |
2 | 22 |
select a.id,name,age from a join b on a.id=b.id;