Hive中的order by,sort by,distribute by,cluster by 的区别 - 代码天地

Hive中的order by,sort by,distribute by,cluster by 的区别

其他 2021-01-26 00:14:00 阅读次数: 0

1.order by

order by 可以指定desc/asc
order by 会对输入做全局排序，因此只有一个reduce（多个reducer无法保证全局排序），但是一个reducer，会导致当输入规模较大时，计算时间会变长。

2.sort by

sort by 不是全局排序，其数据在进入reducer钱完成排序，因此如果用sort by进行排序，兵器让设置mapped.reduce.task>1，则sort by只会保证每个reducer的输出有序，并不保证全局有序。（全排序的实现：先sort by 然后order by。

3.distribute by(重要）

distribute by 是控制在map端如何拆分数据给reducer端的。hive会根据distribute by 后面列，对应reduce的个数进行分发，某人是采用hash算法。sort by 为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到那个reducer，这通常是为了进行后学的聚集操作。distribute by刚好可以做这件事。因此，distribute by通常和sort by配合使用。

select * from store distribute by merid sort by money desc;

4.cluster by

cluster by具有 distribute by和 sort by的组合功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC

猜你喜欢

转载自blog.csdn.net/Cxf2018/article/details/109308867

Hive中order by、sort by、distribute by、cluster by的区别

hive中 order by ,distribute by ,cluster by ,sort by 区别

Hive中order by，sort by，distribute by，cluster by的区别

hive中cluster by，order by，sort by，distribute by的区别

Hive中的order by,sort by,distribute by,cluster by 的区别

Hive的sort by, order by, distribute by, cluster by区别？

Hive的Order by、Sort by、Distribute by和Cluster by的区别

hive的 group 、distribute 、sort 、cluster、order 区别

Hive学习：order by，sort by，distribute by，cluster by的区别

HIVE 中 order by, sort by, distribute by, cluster by的用法和区别

hive中order by、distribute by、sort by和cluster by的区别和联系

Hive中order by,sort by, distribute by, cluster by区别，用法详解

hive中order by ，sort by ，distribute by 和 cluster by的区别

hive中order by、sort by、distribute by、cluster by的区别详解

hive Sort By/Order By/Cluster By/Distribute By

Hive中order by、sort by、distribute by和cluster by

Hive中order by sort by distribute by cluster by用法

hive 中 order by ,sort by ,distribute by ,cluster by 详解

Hive中的order by、sort by、distribute by和cluster by

hive中的order by、sort by、distribute by、cluster by排序

hive中order by ，sort by ，distribute by 和 cluster by

hive中几个排序方式的区别 hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别

hive四种排序order by，sort by，distribute by，cluster by的区别

HIVE中，order by、sort by、 distribute by和 cluster by区别，以及cluster by有什么意义

Hive中的四种排序方式（order by,sort by,distribute by,cluster by）使用与区别详解

Hive中的四种排序方式（order by,sort by,distribute by,cluster by）使用与区别详解

【Hive】Order by、Sort by、Distribute by和Cluster by

谈谈hive的order by ，sort by ，distribute by 和 cluster by

Hive之Order,Sort,Cluster and Distribute By

Hive的排序（Order by，Sort by，Distribute by，Cluster by）

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)