hive中order by ，sort by ，distribute by 和 cluster by - 代码天地

hive中order by ，sort by ，distribute by 和 cluster by

其他 2020-04-07 14:01:06 阅读次数: 0

总说：
笼统地看，这四个在hive中都有排序和聚集的作用，然而，它们在执行时所启动的MR却各不相同。

细讲：
order by：

order by会对所给的全部数据进行全局排序，并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样，不管来多少数据，都只启动一个reducer来处理。因此，数据量小还可以，但数据量一旦变大order by就会变得异常吃力，甚至“罢工”。

sort by：

sort by是局部排序。相比order by的懒惰糊涂，sort by正好相反，它不但非常勤快，而且具备分身功能。sort by会根据数据量的大小启动一到多个reducer来干活，并且，它会在进入reduce之前为每个reducer都产生一个排序文件。这样的好处是提高了全局排序的效率。

distribute by：

distribute by的功能是：distribute by 控制map结果的分发，它会将具有相同字段的map输出分发到一个reduce节点上做处理。即就是，某种情况下，我们需要控制某个特定行到某个reducer中，这种操作一般是为后续可能发生的聚集操作做准备。

https://blog.csdn.net/qq_40795214/article/details/82190827

猜你喜欢

转载自www.cnblogs.com/gouhaiping/p/12652983.html

Hive中order by、sort by、distribute by和cluster by

Hive中的order by、sort by、distribute by和cluster by

hive中order by ，sort by ，distribute by 和 cluster by

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive中order by、distribute by、sort by和cluster by的区别和联系

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

hive中order by,sort by,distribute by,cluster by作用和用法

hive中order by ，sort by ，distribute by 和 cluster by的区别

hive Sort By/Order By/Cluster By/Distribute By

Hive中order by、sort by、distribute by、cluster by的区别

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive中order by sort by distribute by cluster by用法

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive中order by，sort by，distribute by，cluster by的区别

hive中的order by、sort by、distribute by、cluster by排序

hive中cluster by，order by，sort by，distribute by的区别

Hive中的order by,sort by,distribute by,cluster by 的区别

Hive中 Oder by 、sort by、distribute by 和 cluster by

HIVE中，order by、sort by、 distribute by和 cluster by区别，以及cluster by有什么意义

Hive的sort by, order by, distribute by, cluster by区别？

Hive之Order,Sort,Cluster and Distribute By

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

hive- order by、sort by 、distribute by、cluster by

hive的 group 、distribute 、sort 、cluster、order 区别

Hive学习：order by，sort by，distribute by，cluster by的区别

order by/sort by/distribute by /cluster by 的区分

hive中order by,sort by, distribute by, cluster by作用以及用法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)