spark---2018.4.19回顾

原有的环境已经有了。

现在要整理清楚,具体的步骤。

1.搭建Hadoop分布式集群

2.Spark安装和集群部署

3.测试Spark集群


步骤1详细:     搭建Hadoop分布式集群

为什么要首先部署Hadoop集群?--由于我们在Spark集群中会用到Hadoop集群的HDFS(Hadoop Distributed File System)文件系统,

所以在部署Spark集群之前要首先部署Hadoop集群。Hadoop框架中最核心的设计是HDFS[存储]和MapReduce【计算】,此处计算框架

用SPARK,但存储框架还是用Hadoop的HDFS文件系统。

二台机器,一台机器作为Master结点(主结点),另外一台作为Slaves结点(从结点)

Master---台式机  JDK 1.8.0_121-b13  amniominmi

Slaves---HP笔记本 JDK 1.8.0_73-b02    mz19m8912mz05m

1.1 为了简化权限等问题,需要以root用户的身份登录使用ubuntu系统.

1.2在两台机器上分别安装JDK,在命令终端查看JDK版本

cd /usr/lib/jvm/java  

java -version 

1.8.0_121-b13【台式机】    和      1.8.0_73-b02【笔记本】

1.3 配置SSH免密码登录

ifconfig   linux查看本机IP地址

根据ip地址直接登录  ssh ip地址     

/etc/init.d/ssh start     /etc/init.d/ssh stop  /etc/init.d/ssh restart

需要注意的,在进行相互通信的时候,服务器端的SSH一定要开,客户端的好像不要管

SSH登录了另外一台电脑,如何退出  exit

1.4 安装Hadoop和搭建Hadoop分布式集群

修改主机名, 配置主机名和IP对应关系  /etc/hosts

SparkMaster的配置文件   dfs中有name和data

配置SparkMaster的配置文件   etc是hadoop里面的etc

到此为止,基本全部实现,参考书籍为“Spark核心源码分析与开发实战”

启动HADOOP集群

sbin/start-all sh   或 sbin/start-dfs.sh  和 sbin/start-yarn.sh

关闭Hadoop集群也是在Master节点上执行:

sbin/stop-dfs.sh
sbin/stop-yarn.sh

步骤3详细:     Spark安装和集群部署

spark-1.5.1 对应 scala-2.11.4

3.1 安装Scala

3.2 安装Spark

3.3 启动并测试集群的状况

在spark的sbin下启动 ./start-all.sh  关闭呢?./stop-all.sh

完全没问题!

进入spark的webUI页面: SparkMaster:8080

3.4测试 Spark集群

A 通过Spark提供的示例,测试成功    examples

B 通过Spark SHELL 测试Spark集群

草!!!!--------------

在我这命令是    hadoop fs -copyFromLocal README.md /     注意是/ 不是/data/  !!!!

可以看sparkmaster:50070    hadoop的HDFS 然后utilities下面的browse the file system

val rdd = sc.textFile("hdfs://SparkMaster:9000/README.md")

文件系统fs默认是 hdfs://SparkMaster:9000

-----------------------------------------------------------

4.25把上述过程再复现一次!---------没有问题!!!








猜你喜欢

转载自blog.csdn.net/qq_28088259/article/details/80004097
今日推荐