HIVE 中 order by, sort by, distribute by, cluster by的用法和区别 - 代码天地

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

其他 2018-06-22 05:53:26 阅读次数: 2

1、order by

hive中的order by 和传统sql中的order by 一样，对数据做全局排序，加上排序，会新启动一个job进行排序，会把所有数据放到同一个reduce中进行处理，不管数据多少，不管文件多少，都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。

select id,sum(money) from t group by id 这条语句只用一个job就ok，

select id,sum(money) from t group by id order by id 如果加上order by 就会多一个job进行排序操作。

2、sort by

sort by 是局部排序，会在每个reduce端做排序，每个reduce端是排序的，也就是每个reduce出来的数据是有序的，但是全部不一定有序，除非一个reduce，一般情况下可以先进行局部排序完成后，再进行全局排序，会提高不少效率。

select id,sum(money) from t group by id sort by id; 这条语句也不会增加job，它在reduce端直接进行排序。

3、distribute by

distribute by 是控制map端在reduce上是如何区分的，distribute by 会把指定的值发到同一个reduce中，比如用上面数据distribute by id 它就会把id相同的值放到一个reduce中执行，不是一个值一个reduce，而是相同的值进入到一个reduce，例如用上面数据可以进入到2个reduce，一般情况下可以sort by 结合使用，先进行分组reduce，再进行排序。

如：select id,money,name from t distribute by id sort by id

4、cluster by

这个其实就是distribute by 和sort by 结合使用的结果。

如：select id,money,name from t cluster by id;

这条语句其实和select id,money,name from t distribute by id sort by id 这条语句的结果是一样的

猜你喜欢

转载自blog.csdn.net/sunwukong_hadoop/article/details/80691913

Hive中order by sort by distribute by cluster by用法

Hive中order by、sort by、distribute by、cluster by的区别

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive中order by，sort by，distribute by，cluster by的区别

hive中cluster by，order by，sort by，distribute by的区别

Hive中的order by,sort by,distribute by,cluster by 的区别

Hive中order by、sort by、distribute by和cluster by

Hive中的order by、sort by、distribute by和cluster by

hive中order by ，sort by ，distribute by 和 cluster by

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

Hive中order by,sort by, distribute by, cluster by区别，用法详解

hive中order by,sort by,distribute by,cluster by作用和用法

hive中order by、distribute by、sort by和cluster by的区别和联系

hive中order by ，sort by ，distribute by 和 cluster by的区别

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive中order by,sort by, distribute by, cluster by作用以及用法

hive 中 order by ,sort by ,distribute by ,cluster by 详解

hive中的order by、sort by、distribute by、cluster by排序

hive中order by、sort by、distribute by、cluster by的区别详解

Hive的sort by, order by, distribute by, cluster by区别？

hive的 group 、distribute 、sort 、cluster、order 区别

Hive学习：order by，sort by，distribute by，cluster by的区别

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

hive Sort By/Order By/Cluster By/Distribute By

HIVE中，order by、sort by、 distribute by和 cluster by区别，以及cluster by有什么意义

hive中几个排序方式的区别 hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别

Hive中 Oder by 、sort by、distribute by 和 cluster by

hive四种排序order by，sort by，distribute by，cluster by的区别

Hive之Order,Sort,Cluster and Distribute By

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)