Spark分布式集群搭建及注意事项

 

环境准备

  • 服务器集群
    我用的CentOS,主机名为KF3-es-cluster-148、KF3-es-cluster-149、KF3-es-cluster-150,另外我会使用root用户搭建集群(生产环境中root用户不是可以任意使用的)

  • spark安装包
    下载地址:https://mirrors.aliyun.com/apache/spark/
    我用的spark-2.4.4-bin-hadoop2.7.tgz
    要根据自己机器中的hadoop版本选择对应的spark版本

1. 集群规划

2. 详细步骤

(1) 把安装包上传到hadoop01服务器并解压

[root@KF3-es-cluster-148]$ tar zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /root/apps/

# 解压后如果感觉安装目录的名称太长可以修改一下
[root@KF3-es-cluster-148]$ cd /root/apps/
[root@KF3-es-cluster-148 apps]$ mv spark-2.4.4-bin-hadoop2.7 spark-2.4.0

(2) 修改spark-env.sh配置文件

# 把SPARK_HOME/conf/下的spark-env.sh.template文件复制为spark-env.sh
[root@KF3-es-cluster-148 apps]$ cd spark-2.4.0/conf
[root@KF3-es-cluster-148 conf]$ mv spark-env.sh.template spark-env.sh

# 修改spark-env.sh配置文件,添加如下内容
[root@KF3-es-cluster-1481 conf]$ vim spark-env.sh 

# 配置JAVA_HOME,一般来说,不配置也可以,但是可能会出现问题,还是配上吧
# JAVA_HOME这里也需要注意加上/jre
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.232.b09-0.el7_7.x86_64/jre
# 一般来说,spark任务有很大可能性需要去HDFS上读取文件,所以配置上
# 如果说你的spark就读取本地文件,也不需要yarn管理,不用配
export HADOOP_CONF_DIR=/root/apps/hadoop-2.7.4/etc/hadoop

# 设置Master的主机名 
# 这里需要注意 如果HOST文件没有映射ip 这里必须填写主机ip
export SPARK_MASTER_HOST=KF3-es-cluster-148
# 提交Application的端口,默认就是这个,万一要改呢,改这里
export SPARK_MASTER_PORT=7077
# 每一个Worker最多可以使用的cpu core的个数,我虚拟机就一个...
# 真实服务器如果有32个,你可以设置为32个
export SPARK_WORKER_CORES=1
# 每一个Worker最多可以使用的内存,我的虚拟机就2g
# 真实服务器如果有128G,你可以设置为100G
export SPARK_WORKER_MEMORY=1g

(3) 修改slaves配置文件,添加Worker的主机列表

[root@KF3-es-cluster-148 conf]$ mv slaves.template slaves
[root@KF3-es-cluster-148 conf]$ vim slaves

# 里面的内容原来为localhost
KF3-es-cluster-148
KF3-es-cluster-149
KF3-es-cluster-150

(4) 把SPARK_HOME/sbin下的start-all.sh和stop-all.sh这两个文件重命名

比如分别把这两个文件重命名为start-spark-all.sh和stop-spark-all.sh
原因:
如果集群中也配置HADOOP_HOME,那么在HADOOP_HOME/sbin目录下也有start-all.sh和stop-all.sh这两个文件,当你执行这两个文件,系统不知道是操作hadoop集群还是spark集群。修改后就不会冲突了,当然,不修改的话,你需要进入它们的sbin目录下执行这些文件,这肯定就不会发生冲突了。我们配置SPARK_HOME主要也是为了执行其他spark命令方便。

[root@KF3-es-cluster-148 conf]$ cd ../sbin
[root@KF3-es-cluster-148 sbin]$ mv start-all.sh start-spark-all.sh
[root@KF3-es-cluster-148 sbin]$ mv stop-all.sh stop-spark-all.sh

(5) 把spark安装包分发给其他节点

[root@KF3-es-cluster-148 apps]$ scp -r spark-2.4.0 KF3-es-cluster-149:`pwd`
[root@KF3-es-cluster-148 apps]$ scp -r spark-2.4.0 KF3-es-cluster-150:`pwd`

(6) 在集群所有节点中配置SPARK_HOME环境变量

[root@KF3-es-cluster-148 conf]$ vim ~/.bash_profile

export SPARK_HOME=/root/apps/spark-2.4.4/
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

[hadoop@hadoop01 conf]$ source ~/.bash_profile

# 其他节点也都配置...

(7) 在spark master节点启动spark集群

# 注意,如果你没有执行第4步,一定要进入SPARK_HOME/sbin目录下执行这个命令
# 或者你在Master节点分别执行start-master.sh和start-slaves.sh

[root@KF3-es-cluster-148 conf]$  sh start-all.sh 

注意:

  • 如果你配置了HADOOP_CONF_DIR,在启动spark集群之前,先启动hadoop集群

(8) 验证


 注意事项

1. 启动Spark在UI界面上看不到worker节点的信息

类似下面图, 当时操作忘记截图在网上找的

解决办法
接下来一般会有两种选择,第一种是直接google,一般网上都有相关的解决办法;第二种是作者比较推荐的,到worker节点的SPARK_HOME/logs路径下去看worker的日志文件,找找原因。一般来说阅读日志文件用more命令或者less命令比较方便。

如果你是直接google的同学,恭喜你,你能找到相关的解决办法,这篇文章已经很好地说明了解决办法。但是总是感觉解决办法有点不够完美,作者在网上也没有搜到比较直接便捷的解决方案,于是想着记录一下。

如果你去阅读日志文件,会发现如下的错误:
 

然后再去解决这个问题的时候会发现,到头来是spark-env.sh文件的问题

export JAVA_HOME=/usr/java/jdk1.8.0
export SPARK_MASTER_IP=172.16.229.129
export SPARK_MASTER_PORT=7077

一般Spark的安装教程上就是这样配置的,这是针对之前的Spark版本,至少用的Spark-2.3.0不适合,需要将SPARK_MASTER_IP改为SPARK_MASTER_HOST,同时要用真实的IP地址,不能用/etc/hosts文件中配置的master(配置192.168.1.148为master)

# 设置Master的主机名 
# 这里需要注意 如果HOST文件没有映射ip 这里必须填写主机ip
export SPARK_MASTER_HOST=192.168.1.148
# 提交Application的端口,默认就是这个,万一要改呢,改这里
export SPARK_MASTER_PORT=7077

改好之后重新启动Spark,发现问题得到解决。

2. 启动Spark发现只有主节点启动, work节点没启动

修改master节点  /etc/hosts文件 因为配置slaves文件是通过域名获取ip, 主节点hosts文件没有对应的映射

vi /etc/hosts


192.168.1.148   KF3-es-cluster-148
192.168.1.149   KF3-es-cluster-149
192.168.1.150   KF3-es-cluster-150
发布了131 篇原创文章 · 获赞 7 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_43064185/article/details/103315178
今日推荐