2 大数据实战系列-spark shell wordcount - 代码天地

2 大数据实战系列-spark shell wordcount

其他 2018-05-30 07:47:30 阅读次数: 0

1 启动spark shell

cd /home/data/app/hadoop/spark-2.1.1-bin-hadoop2.7/bin
./spark-shell --master spark://shulaibao2:7077 --executor-memory 512m --driver-memory 4540m

这里写图片描述

初始化sc->SparkContext   spark->SparkSession

2 创建hdfs数据源

2.1创建hdfs文件夹

Hadoop fs - mkdir -p /home/hadoop/upload/test

2.2 上传数据源到hdfs

Hadoop fs -put /home/data/app/hadoop/hadoop-2.8.0/etc/hadoop/core-site.xml 
/home/hadoop/upload/test

2.3 验证hdfs文件列表

Hadoop fs -ls /home/hadoop/upload/test

3 wordcount

Scala-> spark shell:

scala>val rdd=sc.textFile("hdfs://shulaibao2:9010/home/hadoop/upload/test/core-site.xml")
scala>rdd.cache()
scala>val wordcount=rdd.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
scala>wordcount.take(10)
scala>val wordsort=wordcount.map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1))
scala>wordsort.take(10)

Python -> spark submit:

spark = SparkSession.builder.appName("WordCountAPP").getOrCreate()
    lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
    print(lines.collect())

    counts = lines.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)

    output = counts.collect()
    for (word, count) in output:
        print("%s: %i" % (word, count))

    spark.stop()

java version:
备注：楼主也是java程序员，但使用sprak确实不适合使用java开发。
例如：

List<Tuple2<String, Integer>> output = counts.collect();
    for (Tuple2<?,?> tuple : output) {
      System.out.println(tuple._1() + ": " + tuple._2());
}

元组、列表都是scala封装jar不容易抓到本质的数据结构
Java做数据分析代码冗长_.split(” “)或者lambda函数，java需要实现FlatMapFunction接口

猜你喜欢

转载自blog.csdn.net/wolfjson/article/details/78141713

2 大数据实战系列-spark shell wordcount

3 大数据实战系列-spark shell分析日志

spark的shell命令操作(wordcount)

spark通过spark shell执行WordCount

Spark-shell初体验：WordCount

在Spark Shell中编写WordCount程序

spark-shell开发wordcount程序

Spark使用idea和shell计算WordCount

【spark】spark集群的安装和spark shell测试wordcount

MapperReduce初探系列（2）——WordCount程序的实现

Spark Streaming快速入门系列(2) | wordcount案例

Spark WordCount

Spark的WordCount

Spark Streaming 实战 WordCount

java使用spark2开发本地测试的wordCount程序

个人作业2——WordCount

2、运行WordCount程序

大数据（Storm）-WordCount

大数据-WordCount

Flink系列（2）：从零搭建Flink环境及WordCount示例

在Spark shell中基于HDFS文件系统进行wordcount交互式分析

Spark—Shell命令对WordCount案例的基本操作（统计、去重、排序、求平均值及join）

Spark Streaming 实战 WordCount（累加）

spark eclipse写wordcount

Spark入门之WordCount

spark 例子wordcount topk

Spark wordCount案例

Spark的WordCount练习（二）

spark---01---wordcount

Spark wordcount入门

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)