spark2.0搭建standalone集群模式

       最近因为工作,需要在已有的集群中添加spark2.0并且能够运行集群任务,原先的集群环境是基于cloudera manager搭建的,spark的版本是1.6,综合考虑之下,决定部署spark的standalone模式,具体操作过程如下:


一、安装spark2.0之前首先要选择与之对应的Scala版本。这里我选用的spark版本是2.1.1,与之对应的Scala版本是2.12.2。首先就是取官网下载spark和Scala相应的版本,如下图:


下载好之后,上传解压即可,这里不一定非得具备Hadoop2.7的环境。


二、配置Scala的环境变量

vi /etc/profile进入编辑模式,在最后面加上Scala的环境变量


source /etc/profile使之生效。

输入scala -version出现下图情况说明Scala环境变量设置成功



三、配置spark的相关文件

进到spark解压缩后的目录,找见conf目录,来到conf目录下。


首先对slaves.template和spark-env.sh.template进行复制并改名的操作,名字去掉后面的.template。然后对spark-env.sh进行操作。vi spark-env.sh进入编辑模式下


如果在没有安装hadoop的前提下,可以这样设置,如果机器上有对应的hadoop,则可添加如下两条命令:

export HADOOP_HOME=/usr/hadoop

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

最后配置slaves,vi slaves进入编辑模式下,将除主节点以外的节点名称添加进去,如下图:



四、将配置好的spark目录分发到各个节点,命令如下:scp -r ./spark-2.1.1-bin-hadoop2.7 hadoop.zoo02:/opt/modules/。


五、进行到这一步,spark的standalone模式基本上就完成了,接下来就是测试的环节了。

运行sbin/start-all.sh命令,启动所有的节点。


主节点会显示一个Master的进程,从节点会显示一个worker进程



可以通过8080端口看到如下的界面:


运行spark-shell进入spark命令行


再次刷新8080端口在Workers下面会出现一个worker id


至此,spark2.0的standalone模式就讲解完了。


你们在此过程中还遇到了什么问题,欢迎留言,让我看看你们都遇到了哪些问题。

猜你喜欢

转载自blog.csdn.net/gdkyxy2013/article/details/80149599