spark 2.0.0
Scala 2.11
解压配置后出现的问题主要有:
1. java_home is not set
解决方法:在sbin目录下的spark-config.sh 中添加对应的jdk 路径
配置文件如下:
spark-env.sh
SPARK_DIST_CLASSPATH=$(/usr/hadoop/hadoop-2.8.0/bin/hadoop classpath) 很重要
SPARK_LOCAL_DIRS=/usr/spark/spark-2.0.0/local #配置spark的local目录
SPARK_MASTER_IP=hserver1 #master节点ip或hostname
SPARK_MASTER_WEBUI_PORT=8085 #web页面端口
#export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=4" #spark-shell启动使用核数
SPARK_WORKER_CORES=1 #Worker的cpu核数
SPARK_WORKER_MEMORY=512m #worker内存大小
SPARK_WORKER_DIR=/usr/spark/spark-2.0.0/worker #worker目录
SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800" #worker自动清理及清理时间间隔
SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hserver1:9000/spark/history" #history server页面端口>、备份数、log日志在HDFS的位置
SPARK_LOG_DIR=/usr/spark/spark-2.0.0/logs #配置Spark的log日志
JAVA_HOME=/usr/java/jdk1.8.0_161 #配置java路径
SCALA_HOME=/usr/spark/scala-2.11.0 #配置scala路径
HADOOP_HOME=/usr/hadoop/hadoop-2.8.0/lib/native #配置hadoop的lib路径
HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.8.0/etc/hadoop/ #配置hadoop的配置路径
spark-defaults.conf:
spark.master spark://hserver1:7077
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hserver1:9000/spark/history
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.driver.memory 1g
spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"
slaves:
工作节点的ip地址或者主机名hostname
java.lang.NoClassDefFoundError java.lang.ClassLoader.loadClass之类的错误直接看错误日志,很多情况是因为没有引入相应的jar 包,hadoop 下的好多jar 包需要引入