使用的是yarn模式,所以运行程序之前需要先将所用数据集传到hdfs上
//查看hdfs的目录
./hdfs dfs -ls
//新建一个data文件夹
./hdfs dfs -mkdir /data
//将文件上传到data文件夹下
./hdfs dfs -put /root/Readme.txt /data
在程序中,读取文件可以读取本地文件,也有读取hdfs中的文件
val sc = new SparkContext(conf)
//在本地运行,读取本地磁盘中的文件,只需写明路径即可
val data = sc.textFile("D:/data/Readme.txt")
//读取hdfs中的文件,下列两个方法都可
val data1 = sc.textFile("hdfs://master:9000/user/root/Readme.txt")
val data2 = sc.textFile("hdfs:///data/Readme.txt")
运行程序时,使用eclipse将程序打成jar包上传到spark集群中,使用如下命令运行程序
//在spark的bin目录下运行
./bin/spark-submit --class CLASSNAME --master spark://192.168.45.145:7077 /root/CLASSNAME.jar