hadoop大数据平台手动搭建-spark

Spark 是专为大规模数据处理而设计的快速通用的计算引擎。拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。由于spark使用依赖scala.所以一起安装。

1.解压文件

tar -zxvf /opt/spark-1.6.0-cdh5.8.0.tar.gz

tar -zxvf /opt/scala-2.10.4.tgz 

2.配置环境变量

# vim /etc/profile

在文件最后添加:

export SPARK_HOME=/opt/spark-1.6.0-cdh5.8.0

export SCALA_HOME=/opt/scala-2.10.4     

export PATH=.:$JAVA_HOME/bin:$SACLA_HOME/bin:$PATH                 //将scala路径添加进环境变量

3. 配置spark-env.sh

     Spark-env.sh文件中配置了spark运行时的一些环境、依赖项以及master和slaver的资源配置。    

    cp conf/spark-env.sh.template conf/spark-env.sh              //将spark-env.sh.template复制一份为spark-env.sh

 配置如下:

 

HADOOP_CONF_DIR=/opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop

SPARK_LOCAL_IP=slave1    //这是指spark当前运行机器

SPARK_MASTER_IP=master //主节点ip

SPARK_CLASSPATH=$CLASSPATH:`find /opt/hadoop-2.6.0-cdh5.8.0 -name *.jar|tr '\n' ':'`

SPARK_LOCAL_DIRS=/opt/spark/

HADOOP_HOME=/opt/hadoop-2.6.0-cdh5

 

4.配置/opt/spark-1.6.0-cdh5.8.0/conf/slaves

master

slave1

slave2

5.拷贝整个目录到slave1,slave2

scp -r /opt/spark-1.6.0-cdh5.8.0 hadoop@slave1:/opt/

 

scp -r /opt/spark-1.6.0-cdh5.8.0 hadoop@slave2:/opt/

 

在slave1,slave2上修改spark-env.sh中的

SPARK_LOCAL_IP为当前机器名

 

5.验证



 

 

 

 

 

 

猜你喜欢

转载自feilong2483.iteye.com/blog/2365051
今日推荐