Hive多字段分组取Top N且保留某列不相同记录 - 代码天地

Hive多字段分组取Top N且保留某列不相同记录

其他 2018-09-14 23:32:38 阅读次数: 0

一、问题背景

1.先吐槽一下中国联通自己的大数据开放能力平台提供的计算集群，Hive用的1.1，Spark用的1.5，Kafka0.8，我的天呐，原始的让人抓狂，好多已经写好的模型都要重写......

2.数据格式

第一列是device_number，第二列是prod_name，第三列是score，第四列是flag；

问题是：

对于红色的1区域：我们要都保留，因为flag相同；

对于绿色的2区域：我们只保留flag为15的；

对于黄色的3区域：我们都保留，因为只有一个app标签；

那么问题来了，Hive里的分组是全字段的，如何在分组之后只保留其中一条或固定几条的数据呢？Hive自带三种函数来解决这个问题，先列出来记一下：

row_number() ,这个是顺序下来；

rank() , 这个在遇到数据相同项时,会留下空位；

dense_rank() ,在遇到数据相同项时,不会留下空位；

这里稍微有个取巧的地方就是我们将Fflag字段当做数字进行分组之后的排序，当然了可以人为手动的给不同flag打上权重，也行。

这样的话就要同时使用row_number()和rank()来实现了，我的sql记录一下：

1

2

3

4

5

6

7

8

9

10

 
      create  
      table  
      v1_final_app_score_20180914  
      as 
     
 
      select  
      device_number,prod_name,score,flag  
      from  
      ( 
     
 
      select  
      device_number,prod_name,score,flag,rank()  
     
 
      over (partition  
      by  
      device_number  
      order  
      by  
      flag  
      desc 
      )  
      as  
      rank_num  
      from  
      ( 
     
 
      select  
      device_number,prod_name,score,flag  
      from  
      ( 
     
 
      select  
      device_number,prod_name,score,flag,row_number()  
     
 
      over (partition  
      by  
      device_number,prod_name  
      order  
      by  
      flag  
      desc 
      )  
      as  
      num  
     
 
      from  
      v1__app_score 
     
 
      )t  
      where  
      t.num = 1 ) tt ) ttt  
      where  
      ttt.rank_num = 1  
     
 
      order  
      by  
      device_number ; 
     

猜你喜欢

转载自www.cnblogs.com/qoix/p/9649369.html

Hive多字段分组取Top N且保留某列不相同记录

hive 分组取Top N

Hive分组取Top N

Hive分组取Top N数据

随机取n个不相同的元素（Lua实现）

SQL Server 分组后取Top N

Hive之分组取前几条记录

C++ 对n个互不相同且均在0—n-1整数排序

java8 stream 多字段分组、多个列汇总统计

java8 stream统计、汇总、多字段分组、多个列汇总统计

Spark实现分组取 top N 示例 —— Scala版

Spark实现分组取 top N 示例 —— Java版

【MySQL】多表查询、分组求和、并对和排序、取top n

linq 分组多字段

Hive-分组之后取前n个

Hive 实现分组后随机取N条数据

python四个数中取三个数组成互不相同且没有重复数字的三位数

MyBatis 解决字段名与实体类属性名不相同的冲突

解决字段名与实体类属性名不相同的冲突

MyBatis解决字段名与实体类属性名不相同的冲突

（十）Mybatis属性名与查询字段名不相同

Mybatis学习（5）单表的CURD操作-属性名与查询字段不相同

MyBatis中解决字段名与实体类属性名不相同的冲突

MariaDB Window Functions窗口函数分组取TOP N记录

js笔试-取两个数组不相同的值

MySql按字段分组取最大值记录

hive按照某个字段分组，然后获取每个分组中最新的n条数据

MySql多表关联，根据某列取前N条记录问题

MySQL分组top N

mybatis中当数据库字段和Java中的实体类字段不相同时的解决方案

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)