Spark on Yarn安装注意问题

问题1 :安装spark-yarn前确定yarn能否正常调度,以下为测试用例

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /input /output

其中 /input目录先创建完并在其内加入wordcount的文件,如

touch 1.txt
echo >>1.txt a a bb b b cc c

将/input文件上传到hdfs的根目录:

hadoop fs -put input /input

/output不用创建否则会报错

问题2:配置history需确认yarn的历史日志服务器和当前日志服务器的IP,否则会影响Yarn的运行

spark-default.xml

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:9000/spark-job-log
spark.yarn.historyServer.address=slave1:18080
spark.history.ui.port=18080

spark.env.sh

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=30 -Dspark.history.fs.logDirectory=hdfs://master:9000/spark-job-log"
YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

测试用例:PI

# client
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar 100
# cluster
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.11-2.1.1.jar 100

都能正确运行则ok,cluster的结果在yarn的application的日志跳转到slave的18080,点击exector后再driver的stdout下
在这里插入图片描述在这里插入图片描述如点击stdout跳转的页面不自动显示,需在yarn-site.xml中添加

<property>
    <name>yarn.log.server.url</name>
    <value>http://master:19888/jobhistory/logs</value>
</property>

注意:我的yarn历史服务日志启动在master

猜你喜欢

转载自blog.csdn.net/qq_40143985/article/details/106282769