Hive中order by、sort by、distribute by和cluster by - 代码天地

Hive中order by、sort by、distribute by和cluster by

其他 2018-05-10 21:29:32 阅读次数: 3

Order By语法

colOrder: ( ASC | DESC )
colNullOrder: (NULLS FIRST | NULLS LAST)           -- (Note: Available in Hive 2.1.0 and later)
orderBy: ORDER BY colName colOrder? colNullOrder? (',' colName colOrder? colNullOrder?)*
query: SELECT expression (',' expression)* FROM src orderBy

对全局数据的排序，只有一个reduce

Sort By语法

The SORT BY syntax is similar to the syntax of ORDER BY in SQL language.

 
           colOrder: ( ASC | DESC ) 
          
           sortBy: SORT BY colName colOrder? ( 
           ','  
           colName colOrder?)* 
          
           query: SELECT expression ( 
           ','  
           expression)* FROM src sortBy

对每一个Reduce内部进行排序，对全局结果集来说不是排序的

设置 reduce 执行的个数

set mapreduce.job.reduces=<number>

sort by样例

set mapreduce.job.reduces=3

insert overwrite local directory '/opt/datas/hive_exp_emp0308' ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t'  COLLECTION ITEMS TERMINATED BY '\n'
 select * from emp sort by empno asc

Distribute By

也就是分区partition，类似MapReduce中分区partition，对数据进行分区后，结合sort by 进行排序使用。

 insert overwrite local directory '/opt/datas/hive_exp_distribute_emp0308' ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t'  COLLECTION ITEMS TERMINATED BY '\n'
 select * from emp distribute by deptno  sort by empno asc

第一个分区数据000000_0

第二个分区000001_0

第三个分区 000002_0

Cluster By

当sort by 和 distribute by的字段相同时，就可以使用Cluster By替换。

  insert overwrite local directory '/opt/datas/hive_exp_cluster_emp0308' ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t'  COLLECTION ITEMS TERMINATED BY '\n'
 select * from emp cluster by empno

总结

Hive中select新特性

Order By
全局排序，一个Reduce
Sort By
每个reduce内部进行排序，全局不是排序
Distribute By
类似MR中partition，进行分区，结合sort by使用
Cluster By
当distribute和sort字段相同时，使用方式

猜你喜欢

转载自blog.csdn.net/qq_16095837/article/details/79483172

Hive中order by、sort by、distribute by和cluster by

Hive中的order by、sort by、distribute by和cluster by

hive中order by ，sort by ，distribute by 和 cluster by

Hive中order by、sort by、distribute by、cluster by的区别

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive中order by sort by distribute by cluster by用法

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive中order by，sort by，distribute by，cluster by的区别

hive中的order by、sort by、distribute by、cluster by排序

hive中cluster by，order by，sort by，distribute by的区别

Hive中的order by,sort by,distribute by,cluster by 的区别

hive Sort By/Order By/Cluster By/Distribute By

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive中order by、distribute by、sort by和cluster by的区别和联系

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

hive中order by,sort by,distribute by,cluster by作用和用法

hive中order by ，sort by ，distribute by 和 cluster by的区别

Hive中 Oder by 、sort by、distribute by 和 cluster by

Hive的sort by, order by, distribute by, cluster by区别？

Hive之Order,Sort,Cluster and Distribute By

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

hive- order by、sort by 、distribute by、cluster by

hive的 group 、distribute 、sort 、cluster、order 区别

Hive学习：order by，sort by，distribute by，cluster by的区别

hive中order by,sort by, distribute by, cluster by作用以及用法

Hive中order by,sort by, distribute by, cluster by区别，用法详解

hive中order by、sort by、distribute by、cluster by的区别详解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)