spark standalone环境安装
1、上传解压,配置环境变量 配置bin目录
2、修改配置文件 conf
cp spark-env.sh.template spark-env.sh
增加配置
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171
**master相当于RM worker相当于NM**
增加从节点配置
cp slaves.template slaves
node1
node2
3、复制到其它节点
scp -r spark-2.4.5 node1:`pwd`
scp -r spark-2.4.5 node2:`pwd`
4、在主节点执行启动命令
启动集群,在master中执行
./sbin/start-all.sh
http://master:8080/ 访问spark ui
(1)standalone client模式 日志在本地输出,一班用于上线前测试(bin/下执行)
需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars
spark-submit
--class org.apache.spark.examples.SparkPi
--master spark://master:7077
--executor-memory 512m --total-executor-cores 1
spark-examples_2.11-2.4.5.jar 100
(2)standalone cluster模式 上线使用,不会再本地打印日志
spark-submit
--class org.apache.spark.examples.SparkPi
--master spark://master:7077
--driver-memory 512m --deploy-mode cluster
--supervise
--executor-memory 512M
--total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100
spark-shell spark 提供的一个交互式的命令行,可以直接写代码
spark-shell master spark://master:7077
整合yarn
在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架
停止spark集群 在spark sbin目录下执行 ./stop-all.sh
spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件
扫描二维码关注公众号,回复: 13303566 查看本文章
1、增加hadoop 配置文件地址
vim spark-env.sh
增加
export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop
2、往yarn提交任务需要增加两个配置
yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)
先关闭yarn
stop-yarn.sh
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
4、同步到其他节点,重启yarn
scp -r yarn-site.xml node1:`pwd`
scp -r yarn-site.xml node2:`pwd`
启动yarn
start-yarn.sh
cd /usr/local/soft/spark-2.4.5/examples/jars
3.spark on yarn client模式 日志在本地输出,一般用于上线前测试
spark-submit
--class org.apache.spark.examples.SparkPi
--master yarn-client
--executor-memory 512M
--num-executors 2
spark-examples_2.11-2.4.5.jar 100
4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io
spark-submit
--class org.apache.spark.examples.SparkPi
--master yarn-cluster
--executor-memory 512m
--num-executors 2
--executor-cores 1
spark-examples_2.11-2.4.5.jar 100
获取yarn程序执行日志 执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003
hdfs webui
http://node1:50070
yarn ui
http://node1:8088