Spark Standalone Test

测试 Standalone 

●需求

使用集群模式运行Spark程序读取HDFS上的文件并执行WordCount

●集群模式启动spark-shell

/export/servers/spark/bin/spark-shell --master spark://node001:7077

●运行程序 :

●准备数据 

vim /opt/tt.txt

hello me you her 

hello you her

hello her 

hello

从本地把  tt.txt     put 到  Hdfs 上  

 hadoop fs -put   /opt/tt.txt       /  

将结果 保存 在   WorldCount 文件中

sc.textFile("hdfs://node001:8020/tt.txt")

.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

.saveAsTextFile("hdfs://node001:8020/WorldCount ")

查看:

●SparkContext web UI

http://node001:4040/jobs/

●注意

集群模式下程序是在集群上运行的,不要直接读取本地文件,应该读取hdfs上的

因为程序运行在集群上,具体在哪个节点上我们运行并不知道,其他节点可能并没有那个数据文件

发布了218 篇原创文章 · 获赞 291 · 访问量 29万+

猜你喜欢

转载自blog.csdn.net/bbvjx1314/article/details/105285771
今日推荐