spark实现将相同用户（key）所有item列表聚合 - 代码天地

spark实现将相同用户（key）所有item列表聚合

其他 2019-03-31 15:48:35 阅读次数: 0

数据：用户id，itemid，分数

代码：

import org.apache.spark.{SparkConf, SparkContext}

object userwatchlist {
def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    //conf.setMaster("local")
    conf.setAppName("userwatchlist test")

    val sc = new SparkContext(conf)
    val input_path = sc.textFile("/train_new.data")
    val output_path = "/userwatchlist_output"

    val data = input_path.filter{ x =>
      val fields = x.split("\t")
      fields(2).toDouble > 2
    }.map { x =>
      val fields = x.split("\t")
      (fields(0).toString, (fields(1).toString, fields(2).toString))
    }.groupByKey(10).map { x =>
      val userid = x._1
      val item_score_tuple_list = x._2
      val tmp_arr = item_score_tuple_list.toArray.sortWith(_._2>_._2)
      var watchlen = tmp_arr.length
      if (watchlen > 5){
        watchlen = 5
      }

      val strbuf = new StringBuilder
      for (i <- 0 until watchlen) {
        strbuf ++= tmp_arr(i)._1
        strbuf.append(":")
        strbuf ++= tmp_arr(i)._2
        strbuf.append(" ")
      }
      userid + "\t" + strbuf

}

data.saveAsTextFile(output_path)

}
}

结果：

将相同用户（key）所有item列表放在了一行

猜你喜欢

转载自blog.csdn.net/qq_28286027/article/details/88211097

spark实现将相同用户（key）所有item列表聚合

spark 相同的key的value聚合成一个

将相同后缀的所有文件复制到指定的路径下

qt实现将相关信息输出到日志文件

pandas 如何实现将数值按照前几位是否相同来聚合？(python)

nginx实现将所有的url转换为小写

VC实现将网址解析出所有ip地址

关于删除用户后可添加相同用户

Windows 2008配置多个相同用户同时远程登录

Android中如何实现将具有相同特征的id循环获得

85.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之使用随机key实现双重聚合

【转】zabbix监控默认的item key列表

写个mybatis的拦截插件，实现将所有执行的sql写入文件里

使用rewrite规则实现将所有到a域名的访问rewrite到b域名

bash 实现将目录下所有子文件夹内的视频原地转码

列表中相同key的字典相加

Spark项目实战-数据倾斜解决方案之使用随机key实现双重聚合

显示SAP中所有用户列表

js 实现获取对象所有键名（key）的方法

c语言实现Redis遍历所有key

shiro实现不同用户多realm登录

实现不同用户登录显示不同页面

Windows——实现域的不同用户登录的界面不同

啥？多个不同用户中心也能实现单点登录？

springBoot和security实现不同用户登录

编写一个程序实现将字符串中的所有“you“替换成“we“

删除redis所有KEY

所有的key版本

将相同的行组合起来

将相同字串转换为顺序序号

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

慧测学习课件

Mscordacwks.dll/SOS.dll 调试归档

关于深度学习人工智能模型的探讨（二）（7）

Stop Using the text-indent:-9999px

Least Common Multiple（HDU - 1019 ）

Comparator接口的使用方法--例子

修改framework Camera的API,旋转摄像头

机器学习时代的“大数据+”：数据平台的设计与搭建

vue 项目部署到nginx

webstorm 常用插件集合

每日归档

更多

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)