hive的row_number()、rank()和dense_rank()的区别以及具体使用 - 代码天地

hive的row_number()、rank()和dense_rank()的区别以及具体使用

其他 2019-01-19 10:11:10 阅读次数: 0

row_number()、rank()和dense_rank()这三个是hive内置的分析函数，下面我们来看看他们的区别和具体的使用案例。

首先创建一个文件test：
A,1
B,3
C,2
D,3
E,4
F,5
G,6
1
2
3
4
5
6
7
然后创建hive表：
create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;
1
load数据到表中
load data local inpath '/usr/java/test' overwrite into table test_rank;
1
执行下面的语句
select a,row_number() over(order by b) row_number,rank() over(order by b) rank,
dense_rank() over(order by b) dense_rank from lijie.test_rank;
1
2
结果为：

a row_number rank dense_rank
A 1 1 1
C 2 2 2
D 3 3 3
B 4 3 3
E 5 5 4
F 6 6 5
G 7 7 6
1
2
3
4
5
6
7
8
由此可见：
row_number:不管排名是否有相同的，都按照顺序1，2，3…..n
rank:排名相同的名次一样，同一排名有几个，后面排名就会跳过几次
dense_rank:排名相同的名次一样，且后面名次不跳跃

实际使用：
现在有一个需求: 需要加工一张表M 其中要求要A表，B表，C表的数据加工，A和B表连接字段都是唯一值，但是和C表连接的字段不唯一，如果A join B，然后再Join C 这样加工出来的表数据会不准确，这里需求是需要最新的C表中关联字段的数据。
可以按照如下方法解决(c2是C表的关联字段，通过update_time的降序取最新的那条数据)：

select
A.xxx,
B.xxx,
C.xxx,
....
from
A
left outer join B
on A.c1 = B.c1
left outer join
(
select
cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum
from
C cc
) C on A.c2 = C.c2 and C.rownum = 1;

猜你喜欢

转载自blog.csdn.net/onway_goahead/article/details/84918376

hive的row_number()、rank()和dense_rank()的区别以及具体使用

rank,dense_rank,row_number使用和区别

Hive中Rank，DENSE_RANK，ROW_NUMBER的区别

Hive SparkSql rank() over,dense_rank() over,row_number() over的使用与区别

hive窗口函数——ROW_NUMBER()来去重，和rank()、dense_rank()的区别

Hive ROW_NUMBER,RANK(),DENSE_RANK()

hive详解——RANK()、DENSE_RANK()、ROW_NUMBER()

row_number() /rank()/dense_rank()

Oracle中row_number()、rank()、dense_rank() 的区别

Rank，Dense_rank，Row_number的区别

ROW_NUMBER(),RANK(),DENSE_RANK()区别

rank,dense_rank,row_number区别

rank() over, dense_rank(), row_number() 的区别

row_number()、rank()、dense_rank() 的区别

row_number()、rank()、dense_rank()排序方式的区别

Oracle中row_number()、rank()、dense_rank() 的区别 Oracle中row_number()、rank()、dense_rank() 的区别

rank()和dense_rank()和row_number()函数

Rank(), DENSE_RANK()和ROW_NUMBER()

hive的分析函数--rank over,Row_Number() over,dense_rank()的区别

hive中dense_rank、row_number和rank函数

oracle分析函数Rank, Dense_rank, row_number

sum、row_number、count、rank\dense_rank over

分组排序 ---{row_number,rank,dense_rank}

oracle中的row_number, rank, dense_rank

Oracle 的开窗函数 rank,dense_rank,row_number

Oracle row_number dense_rank rank() 用法

SQL中的rank()，dense_rank()，row_number()

SQL实现ROW_NUMBER、RANK、DENSE_RANK

对比rank, dense_rank, row_number

Hive分析窗口函数 NTILE,ROW_NUMBER,RANK,DENSE_RANK

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)