hive的 group 、distribute 、sort 、cluster、order 区别

其他 2020-04-08 23:02:47 阅读次数: 0

order by

hive 的语法大部分从mysql中继承过来一来节约学习成本，二是对习惯了mysql语法的更易于编程，order by 便是这样移植了过来，但放在大数据这种环境下，显得作用没有在mysql那样大了，因为处理数仓的数据量都是非常大的，如果使用order by 便是对所有数据做一次全排序，并且只开启一个reduce来排序。效率低下，消耗的资源的代价将是非常大的，所以它的适用场景是在数据量很小的情况下才适合使用，慎用。

这里跟传统的sql还有一点区别：如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit 来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。

sort by

sort by 只对局部排序，不保证全局，在mapreduce中 reduce 区间内排序，如果是有多个reduce 就形成了区内有序，区间是无序的

distribute by

distribute by 按某个字段进行分组，并且把相同字段拉取到一个reduce上处理，一般是结合 sort by来使用，使用时候要把distribute by 放在前面 sort by 放在后面

cluster by

cluster by是distribute by 和 sort by 的结合体使用cluster by 的列只能是降序的，不能设置为升序

路由已

发布了39 篇原创文章 · 获赞 13 · 访问量 2298

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43205282/article/details/105017337

hive的 group 、distribute 、sort 、cluster、order 区别

Hive的sort by, order by, distribute by, cluster by区别？

Hive中order by、sort by、distribute by、cluster by的区别

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive中order by，sort by，distribute by，cluster by的区别

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive中cluster by，order by，sort by，distribute by的区别

Hive中的order by,sort by,distribute by,cluster by 的区别

Hive学习：order by，sort by，distribute by，cluster by的区别

hive中几个排序方式的区别 hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别

Hive 的 HQL 语句：distribute by与group by，order by与sort by 的区别

hive Sort By/Order By/Cluster By/Distribute By

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

hive中order by、distribute by、sort by和cluster by的区别和联系

Hive中order by,sort by, distribute by, cluster by区别，用法详解

hive四种排序order by，sort by，distribute by，cluster by的区别

hive中order by ，sort by ，distribute by 和 cluster by的区别

hive中order by、sort by、distribute by、cluster by的区别详解

Hive中order by、sort by、distribute by和cluster by

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive之Order,Sort,Cluster and Distribute By

Hive中order by sort by distribute by cluster by用法

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive中的order by、sort by、distribute by和cluster by

Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

hive中的order by、sort by、distribute by、cluster by排序

hive- order by、sort by 、distribute by、cluster by

hive中order by ，sort by ，distribute by 和 cluster by

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)