测试 Standalone
●需求
使用集群模式运行Spark程序读取HDFS上的文件并执行WordCount
●集群模式启动spark-shell
/export/servers/spark/bin/spark-shell --master spark://node001:7077
●运行程序 :
●准备数据
vim /opt/tt.txt
hello me you her
hello you her
hello her
hello
从本地把 tt.txt put 到 Hdfs 上
hadoop fs -put /opt/tt.txt /
将结果 保存 在 WorldCount 文件中
sc.textFile("hdfs://node001:8020/tt.txt")
.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
.saveAsTextFile("hdfs://node001:8020/WorldCount ")
查看:●SparkContext web UI
http://node001:4040/jobs/
●注意
集群模式下程序是在集群上运行的,不要直接读取本地文件,应该读取hdfs上的
因为程序运行在集群上,具体在哪个节点上我们运行并不知道,其他节点可能并没有那个数据文件