Hive Map Side Join解析 - 代码天地

Hive Map Side Join解析

企业开发 2018-05-10 01:45:54 阅读次数: 0

通常Hadoop在做join策略的时候会有两种方式map-side join（也叫replication join）和reduce-side join（也叫repartition join或者common join）

1. reduce side join

利用了mapreduce框架的sort-merge机制来使得相同key的数据聚合在一起，在map阶段会分别读取输入dataset，然后根据join key来分发每条记录（其他值包装在value中），在reduce阶段读取所有同一个join key对应的所有记录后，就可以做笛卡尔积，然后将结果再emit出去。

2. map side join

如果一部分输入dataset size比较小的话，可以将这部分数据replicate到所有的map端(利用DistributedCache拷贝到各个map host上)，在map task执行的时候，会先将这部分数据（小表）读入memory中，每次在map函数遍历大表的时候，会查找memory中对应相同join key的记录集，然后做join。

Hive执行map side join的策略

Hive在Compile阶段的时候对每一个common join会生成一个conditional task，并且对于每一个join table，会假设这个table是大表，生成一个mapjoin task，然后把这些mapjoin tasks装进conditional task（List<Task<? extends Serializable>> resTasks），同时会映射大表的alias和对应的mapjoin task。在runtime运行时，resolver会读取每个table alias对应的input file size，如果小表的file size比设定的threshold要低 (hive.mapjoin.smalltable.filesize,默认值为25M)，那么就会执行converted mapjoin task。对于每一个mapjoin task同时会设置一个backup task，就是先前的common join task，一旦mapjoin task执行失败了，则会启用backup task

流程图：

原文链接：http://blog.csdn.net/lalaguozhe/article/details/9082921

猜你喜欢

转载自x10232.iteye.com/blog/2333314

Hive Map Side Join解析

hive Map-side Aggregation OOM 异常

hadoop join之map side join

MapReduce Algorithm - Map-side Join

Spark map-side-join 关联优化

hive的map join原理

hive的map join

理解Hive Map join

MapReduce Algorithm - Another Way to Do Map-side Join

Hive中使用MAP JOIN

hive--Sort Merge Bucket Map Join

hive的数据倾斜解决（Map端、reduce 端、join中）

MapReduce Algorithm - Reduce-side Join

关于hive中Map join 时大表left join小表的问题

HIVE中MAP、String、Struct类型数据解析

hive join

Hive 的join

[半转]遇到Map-side Aggregation OOM 异常

Cannot use map-side combining with array keys

hive map端聚合

hive的map结果压缩

HIVE MAP排序 GenericUDF

Hive map阶段缓慢

hive 读取 map的value

hive：函数：map / json

Hive 常见数据倾斜场景及解决方案(Map\Join\Reduce端)

如何基于新API使用Hadoop的Reduce Side Join

Hive基础07、Hive引入Map

hive array、map、struct使用

hive函数str_to_map

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)