hive Sort By/Order By/Cluster By/Distribute By - 代码天地

hive Sort By/Order By/Cluster By/Distribute By

企业开发 2018-05-14 09:27:08 阅读次数: 2

hive Sort By/Order By/Cluster By/Distribute By
摘自：http://blog.csdn.net/yfkiss/article/details/8021562

Order by
[plain] view plaincopy
colOrder: ( ASC | DESC )
orderBy: ORDER BY colName colOrder? (',' colName colOrder?)*
query: SELECT expression (',' expression)* FROM src orderBy
order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）
只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。
在hive.mapred.mode=strict模式下，强制必须添加limit限制，这么做的目的是减少reducer数据规模，例如，当限制limit 100时，如果map的个数为50，则reducer的输入规模为100*50

Sort by
[plain] view plaincopy
colOrder: ( ASC | DESC )
sortBy: SORT BY colName colOrder? (',' colName colOrder?)*
query: SELECT expression (',' expression)* FROM src sort By
sort by不是全局排序，其在数据进入reducer前完成排序。
因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

Distribute by
根据distribute by指定的内容将数据分到同一个reducer

Cluster by
除了具有Distribute by的功能外，还会对该字段进行排序。因此，常常认为cluster by = distribute by + sort by

reference:
languagemanual-sortby
Hive排序

猜你喜欢

转载自wwangcg.iteye.com/blog/1703122

hive Sort By/Order By/Cluster By/Distribute By

Hive的sort by, order by, distribute by, cluster by区别？

Hive中order by、sort by、distribute by和cluster by

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive中order by、sort by、distribute by、cluster by的区别

Hive之Order,Sort,Cluster and Distribute By

Hive中order by sort by distribute by cluster by用法

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive中的order by、sort by、distribute by和cluster by

Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

Hive中order by，sort by，distribute by，cluster by的区别

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive中的order by、sort by、distribute by、cluster by排序

hive中cluster by，order by，sort by，distribute by的区别

hive- order by、sort by 、distribute by、cluster by

hive中order by ，sort by ，distribute by 和 cluster by

hive的 group 、distribute 、sort 、cluster、order 区别

Hive中的order by,sort by,distribute by,cluster by 的区别

Hive学习：order by，sort by，distribute by，cluster by的区别

Hive_Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

hive中order by,sort by, distribute by, cluster by作用以及用法

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

hive中order by,sort by,distribute by,cluster by作用和用法

hive中order by、distribute by、sort by和cluster by的区别和联系

Hive中order by,sort by, distribute by, cluster by区别，用法详解

Hive拉拉扯扯的order by,sort by,distribute by, cluster by

hive入门之排序查询（order by,sort by,distribute by,cluster by...）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)