Hive拉拉扯扯的order by,sort by,distribute by, cluster by - 代码天地

Hive拉拉扯扯的order by,sort by,distribute by, cluster by

其他 2020-03-19 10:41:32 阅读次数: 0

Hive支持两个层面的排序：

全局排序
部分排序

全局排序用

order by col [ASC | DESC]

实现，效果和传统的RDMS一样，保证最后的数据全局有序。

部分排序用

sort by col [ASC | DESC]

实现，保证同一个reducer处理的数据有序，对于结果数据则表现为局部有序。

Hive对用户提供的同样是SQL，但底层实现却和传统数据库有天壤区别，底层实现默默情况下是利用了Hadoop的计算框架MapReduce，当然也支持使用Spark, Tez。鉴于此，Hive有一些自己特定，比如order by的实现需要把所有数据汇集到一个reducer中处理，如果数据量巨大，这个一步将会成为整个任务的潜在问题点，所以Hive在严格模式下（hive.mapred.mode=strict）时，使用order by必须搭配使用limit。

同时是由于Hive底层的实现机制的原因，Hive有两个相关的字句distribute by和cluster by。

distribute by

确保具有相同分区键的数据全部被分配到同一个reducer处理。

cluster by

确保具有相同分区键的数据全部被分配到同一个reducer处理，同时确保同一个reducer中的数据顺序。相当于：

disribute by col sort by col

不过分开或组合使用disribute by显得更加灵活：

sort by只负责排序，数据的划分则是随机划分到reducer
distribute by和sort by可以作用于不同的列上，一个常用的情景是

disribute by col_A sort by col_A，col_B

穷目楼

发布了106 篇原创文章 · 获赞 15 · 访问量 15万+

私信关注

猜你喜欢

转载自blog.csdn.net/skyupward/article/details/104381615

Hive拉拉扯扯的order by,sort by,distribute by, cluster by

hive Sort By/Order By/Cluster By/Distribute By

order by/sort by/distribute by /cluster by 的区分

Hive的sort by, order by, distribute by, cluster by区别？

Hive中order by、sort by、distribute by和cluster by

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive中order by、sort by、distribute by、cluster by的区别

Hive之Order,Sort,Cluster and Distribute By

Hive中order by sort by distribute by cluster by用法

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

Hive中的order by、sort by、distribute by和cluster by

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

Hive中order by，sort by，distribute by，cluster by的区别

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive中cluster by，order by，sort by，distribute by的区别

hive中的order by、sort by、distribute by、cluster by排序

hive- order by、sort by 、distribute by、cluster by

hive中order by ，sort by ，distribute by 和 cluster by

hive的 group 、distribute 、sort 、cluster、order 区别

Hive中的order by,sort by,distribute by,cluster by 的区别

Hive学习：order by，sort by，distribute by，cluster by的区别

HiveSQL DQL ：DISTRIBUTE BY、CLUSTER BY、Sort By、Order By

Hvie 中的 order by, sort by, distribute by 与 cluster by

Hive中 Oder by 、sort by、distribute by 和 cluster by

Hive_Hive 排序及优化 ORDER BY, SORT BY, DISTRIBUTE BY, CLUSTER BY

hive中order by,sort by, distribute by, cluster by作用以及用法

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)