hive中cluster by，order by，sort by，distribute by的区别 - 代码天地

hive中cluster by，order by，sort by，distribute by的区别

其他 2019-07-04 21:41:39 阅读次数: 0

order by：
会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。

sort by：
不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只会保证每个reducer的输出有序，并不保证全局有序。sort by不同于order by，它不受hive.mapred.mode属性的影响，sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序，即可得到全部结果。

distribute by：
是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此，distribute by经常和sort by配合使用。

cluster by：
除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

猜你喜欢

转载自blog.csdn.net/qq_42750329/article/details/86534997

Hive中order by、sort by、distribute by、cluster by的区别

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive中order by，sort by，distribute by，cluster by的区别

hive中cluster by，order by，sort by，distribute by的区别

Hive中的order by,sort by,distribute by,cluster by 的区别

Hive的sort by, order by, distribute by, cluster by区别？

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive的 group 、distribute 、sort 、cluster、order 区别

Hive学习：order by，sort by，distribute by，cluster by的区别

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

hive中order by、distribute by、sort by和cluster by的区别和联系

Hive中order by,sort by, distribute by, cluster by区别，用法详解

hive中order by ，sort by ，distribute by 和 cluster by的区别

hive中order by、sort by、distribute by、cluster by的区别详解

hive Sort By/Order By/Cluster By/Distribute By

Hive中order by、sort by、distribute by和cluster by

Hive中order by sort by distribute by cluster by用法

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive中的order by、sort by、distribute by和cluster by

hive中的order by、sort by、distribute by、cluster by排序

hive中order by ，sort by ，distribute by 和 cluster by

hive中几个排序方式的区别 hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别

hive四种排序order by，sort by，distribute by，cluster by的区别

HIVE中，order by、sort by、 distribute by和 cluster by区别，以及cluster by有什么意义

Hive中的四种排序方式（order by,sort by,distribute by,cluster by）使用与区别详解

Hive中的四种排序方式（order by,sort by,distribute by,cluster by）使用与区别详解

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive之Order,Sort,Cluster and Distribute By

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)