hive 中 join操作底层mr图解

其他 2021-03-28 12:22:11 阅读次数: 0

join分为mapjoin 和 common(普通) join

mapjoin 就是没有reduce阶段,只有map阶段,在map阶段进行join操作.

common join 是在reduce阶段进行join操作,整个过程包括map shuffle reduce.

以common join为例:

Map阶段

读取源表的数据，Map输出时候以 Join on 条件中的列为作为key，如果Join有多个关联键，则以这些关联键的组合作为key;

Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列；同时在value中还会包含表的 Tag 信息，用于标明此value对应哪个表；

按照key进行排序;

Shuffle阶段
根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中，这样确保两个表中相同的key位于同一个reduce中

Reduce阶段
根据key的值完成join操作，期间通过Tag来识别不同表中的数据。

表a:

id	name
1	小王
2	小张

表b:

id	age
1	32
2	22

select a.id,name,age from a join b on a.id=b.id;

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_47699191/article/details/115266572

hive 中 join操作底层mr图解

Hive中的join操作

08_Hive中的各种Join操作

Hive中join操作及用法---详解

Hive 中各种Join 操作及实例

hive中join函数的所有操作

hive中常用操作

Hive中查询操作

hive中的LEFT SEMI JOIN

Hive中JOIN的使用入门

【hive】中各类join的使用

[Hive_7] Hive 中的 DDL 操作

hive中的left semi join替换sql中的in操作

HIVE中join、semi join、outer join

hive中的集合操作函数

hive中时间操作（二）

hive中时间操作（一）

Hive中DML数据操作

Hive中DDL数据操作

hive中操作hdfs命令

Hive中Join的原理和机制

Hive中关于表join....on....的问题

Hive中join的三种方式

Hive Left Join 中 On 与 Where 的区别

hive的join操作

Hive join操作

Hive join操作优化

Apache Hive—join操作

hive的操作方式以及补充hive中的索引和视图

在Hive中操作Phoenix，对比Hive查询Hbase

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)