SPARK ON YARN 应用(例1)--求每个学科中子版块的访问量最大的前一名 - 代码天地

SPARK ON YARN 应用(例1)--求每个学科中子版块的访问量最大的前一名

其他 2019-02-23 22:27:48 阅读次数: 0

dashuju.log

package count1
import java.net.URL

import org.apache.spark.{SparkConf, SparkContext}

/**
  * 每个学科中子版块的访问量最大的前一名
  */
object URLCount {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("SparkWorkCount")//.setMaster("local[2]")
    val sc=new SparkContext(conf)
    sc.setLogLevel("WARN")
    val rdd=sc.textFile("hdfs://192.168.16.100:9000/data/dashuju.log",1).map(lines=>{
      val fields=lines.split("\t")
      (fields(1),1)
    })

    val rdd1=rdd.reduceByKey(_+_)
    val rdd2=rdd1.map(t=>{
      //t._1  url  t._2 总次数
      val url=t._1
      val host=new URL(url).getHost
      val count=t._2
      (host,url,count)
    })
    //按照host进行分组
    val rdd3=rdd2.groupBy(_._1)
    val rdd4=rdd3.mapValues(it=>{
      it.toList.sortBy(_._3).reverse.take(1)
    })
    val res=rdd4.map(x=>(x._2)) 

    val
    arr=Array("java.dashuju.cn","php.dashuju.cn","net.dashuju.cn")
    for(course<-arr){
      val rdd5=rdd2.filter(_._1==course)
      val res1=rdd5.sortBy(_._3,false).take(1)
      //Array转RDD
      val res2=sc.parallelize(res1).saveAsTextFile("hdfs://192.168.16.100:9000" + "/reswork"+course)

      println(res1.toBuffer)
    }
    sc.stop()
  }
}
//把代码 打成Jar包上传到到hdfs上

hadoop端启动集群把文件上传到集群上

在spack目录下执行命令:
bin/spark-submit --class count.URLCount --master yarn-client --executor-memory 1G --total-executor-cores 1 /root/URLCount.jar

查看:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43203897/article/details/85326202

SPARK ON YARN 应用(例1)--求每个学科中子版块的访问量最大的前一名

Spark on Yarn（一）

kerberos体系下的应用(yarn,spark on yarn)

spark on yarn 出现的问题(一)

【spark】一 spark on yarn的日志查看

yarn spark

Spark On Yarn

Spark----【spark on yarn】

通过yarn执行spark作业应用实例

Spark学习--1、Spark入门（Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式）

Spark（五十一）：Spark On YARN（Yarn-Cluster模式）启动流程源码分析（二） Spark（四十九）：Spark On YARN启动流程源码分析（一）

【Spark十九】Spark on YARN部署

CDH的 hive on spark（spark on yarn）

Spark On YARN 环境搭建

Spark的YARN模式部署

Spark On Yarn的各种Bug

Spark yarn执行方式

Spark on Yarn的运行原理

Spark-on-YARN

10.5 spark on yarn

搭建spark on yarn 集群

Spark on Yarn 解惑

Spark on yarn模式

spark on yarn 停止方式

Spark on Yarn架构原理

spark on yarn 的那些坑

Spark On Yarn 运行模式

Spark Yarn|Standalone

spark on yarn 内存分配

Spark on Yarn和Standalone

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)