spark二次排序，两列数据第一列排，如果第一列相等，看第二列 - 代码天地

spark二次排序，两列数据第一列排，如果第一列相等，看第二列

其他 2020-03-05 00:17:54 阅读次数: 0

#!/usr/bin/env python3

from operator import gt
from pyspark import SparkContext, SparkConf

class SecondarySortKey():#参数是k，other，自带了参数self，不写
def__init__(self,k):#构造函数
self.column1 = k[0]
self.column2 = k[1]
def__gt__(self,other):
if other.column1 = self.column1:
return gt(self.column2,other.column2)#python3自带函数https://blog.csdn.net/xc_zhou/article/details/81416742
else:
return gt(self.column1,other.column1)

def main:
conf = SparkConf().serAppNmae(‘Spark_sort’).setMaster(‘local[1]’)
sc = SparkContext(conf=conf)
file=“file:///usr/local/saprk/mycode/rdd/secondarysort/file4.txt”
rdd1 = sc.textFile(file)
rdd2 = rdd1.filter(lambda x:len(x.strip())>0))
rdd3 = rdd2.map(lambda x:((int(x.split(" “)[0]),int(x.split(” ")[1])),x))
rdd4 = rdd3.map(lambda x:(SecondarySortKey(x[0]),x[1]))
rdd5 = rdd4.sortByKey(False)
rdd6 =rdd5.map(lambda x:x[1])
rdd6.foreach(print)

if__name__==‘main’:
main()

try to stay simple

发布了25 篇原创文章 · 获赞 0 · 访问量 384

私信关注

猜你喜欢

转载自blog.csdn.net/qq_45371603/article/details/104593849

spark二次排序，两列数据第一列排，如果第一列相等，看第二列

postgresql 第一列null排在前，然后再按第二列的顺序排序

有两列数，Matlab让第二列数随着第一列的升序排列(sortrows)

latex中表格中第一列和第二列之间的竖线总是过长

【生成数据集csv文件，第一列为路径，第二列为label】

Java中二维数组按字典排序（即，按第一列排序）

VBA宏处理EXCEL数据：将范围A的数据打平填充到范围B；遍历单元格，输出两列，第一列是单元格名，第二列是对应的值

实现表格第一列固定

（114）二维数组按照第一列进行排序

怎样在一条sql语句中将第一列和第二列加和的值作为第三列的值

Excel将一列数据变为两列

hive实现两列数据合并成一列

ll命令第一列数据的含义

awk删除文件中第一列的数据

checkbox 的一列

一列布局

add一列

CSS中给表格的第一列以及最后一列设置不同的样式

文件第一列（或某一列）作为索引 -- Pandas

算法_EXCEL中 A表示第一列,B表示第二列...AA表示27列，AB表示28列，问随意一组字母是多少列

二级菜单 4行一列四行以上两列

Spark DataFrame添加一列单调递增的id列

datatables：如何禁用一列的排序

Excel技巧——一列变多列

oracle一列拆多列

SQL多列输出一列

Python numpy 转置、逆、去掉一列、按列取出、矩阵拼接、矩阵排序、矩阵相等、np.where，一维转二维

matlab之矩阵两列合并一列

Excel将两列依次合并为一列

SQL查出的字段一列分成两列

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)