spark-1.6.3下载
首先,要在计算机上安装hadoop,,没安装hadoop的可用看大数据集群搭建(2).
访问Spark官方下载地址,按照如下图下载。
Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。这里采用Yarn模式。
我选用的spark版本为spark-1.6.3-bin-without-hadoop.tar.gz
sudo tar -zxvf spark-1.6.3-bin-without-hadoop.tar.gz -C /usr/BigData #解压到指定文件
sudo mv /usr/BigData/spark-1.6.3-bin-without-hadoop spark #改文件夹名称
sudo chown -R "usrname':"usrname" ./spark #改文件权限
cd ./spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh #拷贝文件
#配置环境变量
sudo gedit ~/.bashrc
#加入以下信息
export SPARK_HOME=/usr/BigData/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
#使生效
source ~/.bashrc
#保存环境配置后,运行下行测试spark是否运行成功(spark目录下)
bin/run-example SparkPi 2>&1 | grep "Pi is"
spark配置
mastet节点:
- 配置slaves文件,将 slaves.template 拷贝到 slaves,然后设置works节点,编辑slave名称
cd /usr/BIgData/spark
cp ./conf/slaves.template ./conf/slaves
sudo gedit ./conf/slaves
将localhost替换为slave的名字,本文为slave1
sudo gedit ./conf/spark-env.sh
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
#在首行添加以下内容
export SPARK_DIST_CLASSPATH=$(/usr/BigData/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/BigData/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.1.100 #设置为自己的master ip
配置好后,将spark文件夹复制到各节点。
cd /usr/BigData
tar -zcf ~/spark.master.tar.gz ./spark
cd ~
scp ./spark.master.tar.gz slave1:/usr/BigData
在slave节点
sudo tar -zxvf ~/spark.master.tar.gz -C /usr/BigData
sudo chown -R “usrname‘ /usr/BigData/spark
启动spark集群
启动Spark集群前,要先启动Hadoop集群。在Master节点主机上运行如下命令:
cd ./hadoop
sbin/start-all.sh #如果把sbin加入环境变量后就可以直接start-all.sh命令
- 启动maste节点 spark
cd /usr/BigData/spark
sbin/start-master.sh
启动成功后会多一个master进程
- 启动slaves节点 spark
sbin/start-slaves.sh
启动成功后可以在slave节点看到多了worker进程
- 浏览器查看Spark独立集群管理器的集群信息
在master主机上打开浏览器,访问http://master:8080,如下图:
关闭spark集群
sbin/stop-master.sh
sbin/stop-slaves.sh