扩展:Java编写Spark程序
前言
- Spark的源码是使用Scala编写的,那么开发时肯定是使用Scala进行开发最好,和官方的底层源码"兼容性更好"
- 但是有些公司觉得Scala的学习成本较高,Scala的编码风格太过于简洁,不利于新人上手,不利于大规模团队合作
- 因为有的语法确实不太方便阅读, 代码太过于骚气
- 所以也会有公司让用Java编写Spark程序.
- 下面有java版的spark项目,可以练练手
演示使用JavaAPI编写Spark程序完成WordCount
package cn.hanjiaxiaozhi.javaapi;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;
import java.util.Arrays;
import java.util.List;
/**
* Author hanjiaxiaozhi
* Date 2020/7/30 14:22
* Desc 演示使用JavaAPI编写Spark程序完成WordCount
*/
public class SparkJavaAPIDemo {
public static void main(String[] args) {
//1.准备环境
SparkConf sparkConf = new SparkConf().setAppName("SparkJavaAPIDemo").setMaster("local[*]");
JavaSparkContext jsc = new JavaSparkContext(sparkConf);
jsc.setLogLevel("WARN");
//2.加载数据
JavaRDD<String> fileRDD = jsc.textFile("file:///D:\\data\\spark\\words.txt");
//3.处理数据
//3.1切割并压扁
/*
flatMap方法中需要的参数为:如下格式的函数(Java中的函数本质就是接口的匿名内部类实现对象)
@FunctionalInterface//该注解加在了一个接口上,表示该接口是一个函数式接口
public interface FlatMapFunction<T, R> extends Serializable {
Iterator<R> call(T t) throws Exception;
}
通过观察源码发现:该函数应该要接收T(这里是String),返回处理好的Iterator<R>(切割好的单词组成的集合)
Java中的函数的格式: (参数)->{函数体}
line.split(" ")返回值为数组,要转为Iterator,
可以先使用Arrays.asList(line.split(" "))得到list,
再list.iterator得到Iterator
*/
//JavaRDD<String> wordsRDD = fileRDD.flatMap(line -> {return Arrays.asList(line.split(" ")).iterator();});
JavaRDD<String> wordsRDD = fileRDD.flatMap(line -> Arrays.asList(line.split(" ")).iterator());
//3.2每个单词记为1
/*
@FunctionalInterface
public interface PairFunction<T, K, V> extends Serializable {
Tuple2<K, V> call(T t) throws Exception;
}
需要传入一个单词,返回(单词,1)
但是Java中没有(单词,1)元组格式,所以得单独new个Tuple2(Scala中提供的),所以应该调用mapToPair
*/
JavaPairRDD<String,Integer> wordAndOneRDD = wordsRDD.mapToPair(word -> new Tuple2<>(word, 1));
//3.3分组聚合
/*
@FunctionalInterface
public interface Function2<T1, T2, R> extends Serializable {
R call(T1 v1, T2 v2) throws Exception;
}
*/
JavaPairRDD<String, Integer> wordAndCountRDD = wordAndOneRDD.reduceByKey((a, b) -> a + b);
//4.输出结果
List<Tuple2<String, Integer>> result = wordAndCountRDD.collect();
//System.out.println(result);
/*
@FunctionalInterface
public interface Consumer<T> {
void accept(T t);
}
*/
//result.forEach(t-> System.out.println(t));
result.forEach(System.out::println);
}
}