Spark配置历史服务

由于spark-shell 停止掉后,集群监控页面就看不到历史任务的运行情况,所以开发时都配置历史服务器记录任务运行情况。

步骤

  1. 修改 spark-defaults.conf.template 文件名为spark-defaults.conf
[root@hadoop102 spark-standalone]# mv spark-defaults.conf.template spark-defaults.conf 

在这里插入图片描述

  1. 修改 spark-default.conf 文件,配置日志存储路径
spark.eventLog.enabled          true
spark.eventLog.dir              hdfs://hadoop102:9000/directory

在这里插入图片描述
注意:需要启动hadoop 集群,HDFS 上的directory 目录需要提前存在。

  1. 修改 spark-env.sh 文件, 添加日志配置
export SPARK_HISTORY_OPTS=" 
-Dspark.history.ui.port=18080  
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory  
-Dspark.history.retainedApplications=30"

在这里插入图片描述
其中

  • 参数 1 含义:WEB UI 访问的端口号为18080
  • 参数 2 含义:指定历史服务器日志存储路径
  • 参数 3 含义:指定保存Application 历史记录的个数,如果超过这个值,旧的应用程序
    信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。
  1. 分发配置文件
[root@hadoop102 spark-standalone]# xsync conf/

在这里插入图片描述

  1. 重新启动集群和历史服务
[root@hadoop102 spark-standalone]# sbin/start-all.sh 
[root@hadoop102 spark-standalone]# sbin/start-history-server.sh

在这里插入图片描述

  1. 执行examples案例
bin/spark-submit \ 
--class org.apache.spark.examples.SparkPi \ 
--master spark://hadoop102:7077 \ 
./examples/jars/spark-examples_2.12-3.0.0.jar \ 
10 

在这里插入图片描述

  1. 查看历史服务http://hadoop102:18080
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_44480968/article/details/119576467

相关文章