二种方法实现Spark计算WordCount - 代码天地

二种方法实现Spark计算WordCount

其他 2019-03-08 17:41:01 阅读次数: 0

1.spark-shell

val lines = sc.textFile("hdfs://spark1:9000/spark.txt")
val words = lines.flatMap(line => line.split(" "))
val pairs = words.map(word => (word, 1))
val wordCounts = pairs.reduceByKey(_ + _)
wordCounts.foreach(wordcount => println(wordcount._1 + " appeared " + wordcount._2 + " times"))

2.Scala for idea

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.2.0</version>
    </dependency>

package cn.spark.study.core
 
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
 
object WordCount {
   
  def main(args: Array[String]) { 
    val conf = new SparkConf()
        .setAppName("WordCount")
.setMaster("spark://hadoop:7077");
//.setMaster("local[2]");//本地运行（windows）
    val sc = new SparkContext(conf)
    
    val lines = sc.textFile(args(0), 1);
    val words = lines.flatMap { line => line.split(" ")}
    val pairs = words.map {word => (word, 1)}
    val wordCount = pairs.reduceByKey(_ + _)
    wordCount.foreach(wordCount => println(wordCount._1 + " appeared " + wordCount._2 + " times"))
  }
}

最后，需要使用spark submit提交到spark集群中进行运行，执行脚本如下：

/usr/local/spark/bin/spark-submit \
--class cn.spark.study.core.WordCount \
/usr/local/spark-study/scala/wordcount.jar \
/root/test.txt
~

注意：需要停止spark-shell，否则可能出现内存不足错误（Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources）

猜你喜欢

转载自blog.csdn.net/zhang__rong/article/details/87987428

二种方法实现Spark计算WordCount

实现分页的二种方法

实现线程第二种方法(推荐)

laravel RBAC 实现第二种方法

vue debug 二种方法

wordpress添加点击量统计功能实现最热文章的二种方法

vue实现动态路由添加（简单无废话第二种方法）

python打开浏览器的二种方法

创建线程的第二种方法

关于进制转换的二种方法

线程创建的第二种方法

失败重跑的第二种方法

jdbc连接第二种方法：

JMeter录制脚本的二种方法

requests保持登录的二种方法

获取元素的第二种方法

用python估计π的第二种方法

Java-初步认识-第十三章-创建线程的第二种方法-实现Runnable接口

Hibernate自动创建表的两种方式（第二种方法）

Python 二维创建与插入值的二种方法

Spring Web MVC 核心组件第二种方法（用注解的方法）

JavaScript--for循环和获取元素的第二种方法

Spring mvc 防止重复提交表单的两种方法，推荐第二种

xen制作半虚拟guestOS（第二种方法）

mysql 远程连接数据库的二种方法

python中将多个参数打包为字节流的第二种方法

Qt5.9继承QObject创建多线程实例（第二种方法）

android 短信验证码自动填写的二种方法

37_并发编程-进程创建的第二种方法

购物车的第二种方法的架构

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)