hive中的order by、sort by、distribute by、cluster by排序 - 代码天地

hive中的order by、sort by、distribute by、cluster by排序

其他 2019-07-02 11:01:30 阅读次数: 0

hive中有四种排序：

1、全局排序：order by

2、内部排序：sort by

3、分区排序：distribute by

4、组合排序：cluster by

order by(全局排序)

说明：全局排序是在一个MapReduce中进行排序的。

参数：

ASC：是升序的意思和mysql一样，同时也是默认的参数。

DESC：降序的意思和MySQL中一样。

举例：查询学生的信息并且按成绩高低排序

  select * from student_score_info order by score

注意：以上这种操作，在实际工作中要慎用，应为使用的如果不是数据库，而是数据仓库软件例如现在的hive ,操作的是数据仓库执行的数据量是非常庞大的，如果使用了全局排序则可能资源的严重消耗

sort by(内部排序)

说明：每个mapreduce的内部排序,对全局结果集来说并不是排序。

关键字：sort by

步骤：

设置reduce的个数： set mapreduce.job.reduce=3;

语句：

  select * from student_score_info sort by score

注意：排序后的结果直接看不出来，得要将数据导出到本地才能看出效果

distribute by(分区排序)

说明：类似MR中的partition ,进行分区的时候使用的，一般结合sort by关键字使用。

关键字：distribute by

例子：先按照部门编号分区，在按照员工编号排序。

必须要设置reduce的数量不为1 （为多个） set mapreduce.job.reduce=2

语句：

  nsert overwrite local directory '/data/sort/emp2' 
  select * from emp distribute by deptno sort by empno desc;

注意：distribute by 语句必须写在 sort by 之前；对于distribute by 的测试的时候必须给定多个reduce 不然是没有办法分区的。

cluster by（组合排序）

说明：当distribute by与sort by 字段相同的时候，可以使用cluster by 关键字。

关键字：cluster by

例子：

  insert overwrite local directory '/data/sort/emp4'
  select * from emp cluster by deptno;

注意：能分区也可以排序，但缺点就是只能对一个字段使用；不能指定 asc 或者desc 默认降序排序。

猜你喜欢

转载自www.cnblogs.com/wwbz/p/11119122.html

hive中的order by、sort by、distribute by、cluster by排序

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

Hive_Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

hive Sort By/Order By/Cluster By/Distribute By

Hive中order by、sort by、distribute by和cluster by

Hive中order by、sort by、distribute by、cluster by的区别

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive中order by sort by distribute by cluster by用法

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive中的order by、sort by、distribute by和cluster by

Hive中order by，sort by，distribute by，cluster by的区别

hive中cluster by，order by，sort by，distribute by的区别

hive中order by ，sort by ，distribute by 和 cluster by

Hive中的order by,sort by,distribute by,cluster by 的区别

hive入门之排序查询（order by,sort by,distribute by,cluster by...）

hive四种排序order by，sort by，distribute by，cluster by的区别

hive中几个排序方式的区别 hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别

Hive中的四种排序方式（order by,sort by,distribute by,cluster by）使用与区别详解

Hive中的四种排序方式（order by,sort by,distribute by,cluster by）使用与区别详解

Hive的sort by, order by, distribute by, cluster by区别？

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive之Order,Sort,Cluster and Distribute By

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive- order by、sort by 、distribute by、cluster by

hive的 group 、distribute 、sort 、cluster、order 区别

Hive学习：order by，sort by，distribute by，cluster by的区别

order by/sort by/distribute by /cluster by 的区分

hive中order by,sort by, distribute by, cluster by作用以及用法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)