spark分布式环境搭建(4)spark环境搭建

spark分布式环境搭建(1)spark环境搭建

在前面的文章当中,我已经将hadoop这个分布式文件系统搭建完毕,接下来就是对spark环境进行搭建。

注意
在搭建spark之前,有几个点要注意到,因为我们用到的是spark社区提供的安装包,里面可能有些功能是不支持的,需要自己去手动编译。相关的手动编译过程,如果有空的话,我记录一下如何手动编译spark安装包(早知道他喵的就早点记录文档了,啊!好气)

另外一个,spark集群主要有下面几种调度模式

  • standalone
这个模式下面就会有那种spark://master:7077端口
  • yarn
这个模式下面,yarn只是负责资源调度的,不存在7077端口
  • mesos

接下来我想搭建一个spark on yarn模式,因为sparkstandalone模式一般做测试集群用。搭建文档有很多,有空的时候补上~

开始进行spark on yarn集群模式搭建

  • 上传spark的安装包至服务器上的目录,我这里用的是/opt
tar -zxvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
mv spark-3.0.0-preview2-bin-hadoop2.7 spark
  • 配置spark
    • 环境变量
    vim /etc/profile
    ## 在下面添加
    export SPARK_HOME=/opt/spark
    export PATH=$PATH:$SPARK_HOME/bin
    ## 添加完毕
    
    ## 使配置生效
    source /etc/profile  
    
    • 修改spark配置文件
    cd /opt/spark/conf
    cp spark-env.sh.template spark-env.sh
    vim spark-env.sh
    ## 下面是配置文件
    # 设置hadoop的配置文件文件夹信息
    HADOOP_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop
    YARN_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop
    JAVA_HOME=/opt/java/jdk1.8
    
    • 配置slaves文件
    cp slaves.template slaves
    vim slaves
    ## 在文件里面添加机器的hostname
    spark1
    spark2
    spark3
    
    • 分发配置文件到各个机器上
    scp -r /opt/spark spark2:/opt
    scp -r /opt/spark spark3:/opt
    
    ##  分发环境变量文件到各个机器
    scp /etc/profile spark2:/etc
    scp /etc/profile spark3:/etc
    
    • 每台机器上面执行
    source /etc/profile
    
    • 启动spark
    /opt/spark/sbin/start-all.sh
    
    检查启动状态:
    1. 输入jps可以看到启动的角色,主节点有一个master,从节点有worker
    2. 打开浏览器,输入master节点所在的ip:8080端口号可以看到一个spark web UI
      完成!!
发布了56 篇原创文章 · 获赞 7 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/OldDirverHelpMe/article/details/105314026