在spark集群中运行程序遇到的一些问题

使用的是yarn模式,所以运行程序之前需要先将所用数据集传到hdfs上

//查看hdfs的目录
./hdfs dfs -ls
//新建一个data文件夹
./hdfs dfs -mkdir /data
//将文件上传到data文件夹下
./hdfs dfs -put /root/Readme.txt  /data

在程序中,读取文件可以读取本地文件,也有读取hdfs中的文件

val sc = new SparkContext(conf)
//在本地运行,读取本地磁盘中的文件,只需写明路径即可
val data = sc.textFile("D:/data/Readme.txt")
//读取hdfs中的文件,下列两个方法都可
val data1 = sc.textFile("hdfs://master:9000/user/root/Readme.txt")
val data2 = sc.textFile("hdfs:///data/Readme.txt")

运行程序时,使用eclipse将程序打成jar包上传到spark集群中,使用如下命令运行程序

//在spark的bin目录下运行
./bin/spark-submit   --class CLASSNAME   --master spark://192.168.45.145:7077  /root/CLASSNAME.jar 

猜你喜欢

转载自blog.csdn.net/weixin_42292787/article/details/82989076
今日推荐