spark--扩展:Java编写Spark程序

前言

  • Spark的源码是使用Scala编写的,那么开发时肯定是使用Scala进行开发最好,和官方的底层源码"兼容性更好"
  • 但是有些公司觉得Scala的学习成本较高,Scala的编码风格太过于简洁,不利于新人上手,不利于大规模团队合作
  • 因为有的语法确实不太方便阅读, 代码太过于骚气
  • 所以也会有公司让用Java编写Spark程序.
  • 下面有java版的spark项目,可以练练手

演示使用JavaAPI编写Spark程序完成WordCount

package cn.hanjiaxiaozhi.javaapi;import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;import java.util.Arrays;
import java.util.List;/**
 * Author hanjiaxiaozhi
 * Date 2020/7/30 14:22
 * Desc 演示使用JavaAPI编写Spark程序完成WordCount
 */
public class SparkJavaAPIDemo {
    
    
    public static void main(String[] args) {
    
    
        //1.准备环境
        SparkConf sparkConf = new SparkConf().setAppName("SparkJavaAPIDemo").setMaster("local[*]");
        JavaSparkContext jsc = new JavaSparkContext(sparkConf);
        jsc.setLogLevel("WARN");//2.加载数据
        JavaRDD<String> fileRDD = jsc.textFile("file:///D:\\data\\spark\\words.txt");//3.处理数据
        //3.1切割并压扁
        /*
        flatMap方法中需要的参数为:如下格式的函数(Java中的函数本质就是接口的匿名内部类实现对象)
        @FunctionalInterface//该注解加在了一个接口上,表示该接口是一个函数式接口
        public interface FlatMapFunction<T, R> extends Serializable {
          Iterator<R> call(T t) throws Exception;
        }
        通过观察源码发现:该函数应该要接收T(这里是String),返回处理好的Iterator<R>(切割好的单词组成的集合)
        Java中的函数的格式: (参数)->{函数体}
        line.split(" ")返回值为数组,要转为Iterator,
        可以先使用Arrays.asList(line.split(" "))得到list,
        再list.iterator得到Iterator
         */
        //JavaRDD<String> wordsRDD = fileRDD.flatMap(line -> {return Arrays.asList(line.split(" ")).iterator();});
        JavaRDD<String> wordsRDD = fileRDD.flatMap(line -> Arrays.asList(line.split(" ")).iterator());
        //3.2每个单词记为1
        /*
       @FunctionalInterface
        public interface PairFunction<T, K, V> extends Serializable {
          Tuple2<K, V> call(T t) throws Exception;
        }
        需要传入一个单词,返回(单词,1)
        但是Java中没有(单词,1)元组格式,所以得单独new个Tuple2(Scala中提供的),所以应该调用mapToPair
         */
        JavaPairRDD<String,Integer> wordAndOneRDD = wordsRDD.mapToPair(word -> new Tuple2<>(word, 1));
        //3.3分组聚合
        /*
        @FunctionalInterface
        public interface Function2<T1, T2, R> extends Serializable {
          R call(T1 v1, T2 v2) throws Exception;
        }
         */
        JavaPairRDD<String, Integer> wordAndCountRDD = wordAndOneRDD.reduceByKey((a, b) -> a + b);//4.输出结果
        List<Tuple2<String, Integer>> result = wordAndCountRDD.collect();
        //System.out.println(result);
        /*
        @FunctionalInterface
        public interface Consumer<T> {
            void accept(T t);
        }
         */
        //result.forEach(t-> System.out.println(t));
        result.forEach(System.out::println);
    }
}

猜你喜欢

转载自blog.csdn.net/qq_46893497/article/details/114004315