任务一：Hadoop 完全分布式安装配置

文章目录

任务一：Hadoop 完全分布式安装配置

克隆虚拟机：

在伪分布模式的基础上，前面已经将创建好用户、安装ssh服务、安装配置Java环境等，作为Master节点，克隆两台虚拟机作为slave节点（分别是Slave1、Slave2）

三台虚拟机IP地址分别为：

 IP地址          主机名
192.168.1.104	master
192.168.1.105	Slave1
192.168.1.109	Slaver2

修改主机名和IP映射：

1sudo vim/etc/hostname//修改各个节点的主机名
2sudo vim/etc/hosts//修改自己所用节点的IP映射

在这里插入图片描述

修改完成后需要reboot重启一下，重启后在终端中才会看到机器名的变化

以上在所有节点上都需要完成网络配置
配置好后需要在各个节点上执行如下命令，测试是否相互ping得通，如果pig不通，后面就无法顺利配置成功

1.ping Master
2.ping Slavel
3.ping Slave2

配置ssh免密登录

配置ssh免密码登录（在Master、Slave1、Slave2节点依次配一遍）：

1	cd.ssh/
2	ssh-keygen-trsa//配置公钥，一直按回车即可

将公匙传输到Master、.Slave1、Slave:2节点上（传输过程中可能需要输入yes和对应的密码）：

1	ssh-copy-id Master
2	ssh-copy-id Slavel
3	ssh-copy-id Slave2

检验免密码是否配置成功（成功后是不用输密码即可登录，同时执行 exit 即可返回到原来的终端）

1	ssh Master
2	ssh Slavel
3	ssh Slave2

1	cd .ssh/
2	cat id rsa.pub	//查看自身公钥
3	cat a authorized_keys	/查看公钥文件

安装配置Hadoop集群

配置Java、Hadoop的环境变量：

由于是在伪分布模式的基础上搭建的，故跳过jdk、hadoop的安装，但是需要保证java、hadoop的环境变量在‘/etc/profile’文件中已经配置好，如图所示：
在这里插入图片描述

Ps: 在三台虚拟机上的 /etc/profile 文件都需要配置ok

/etx/profile: 系统全局针对终端环境的设置
~/.bashrc: 是用户相关的终端（shell）的环境设置,通常打开一个新终端时，默认会load里面的设置，在这里的设置不影响其它人

进入/usr/local/hadoop/etc/hadoop下修改六个配置文件：

（1）修改workers:

1	sudo vim workers

在这里插入图片描述

(2) 配置 core-stie.xml文件：

在这里插入图片描述

fs.defaultFS：该参数是配置指定HDFS的通信地址。其值为hdfs://mster
hadoop.tmp.dir：该参数配置的是Hadoop临时目录，即指定Hadoop运行时产生文件的存储路径，其值可以自行设置，不能设置为/tmp（/tmp是Linux的临时目录）
dfs.ssh.Slave1、2与dfs.ssh.private.key: 该参数指定SSH用户和私钥的路径,这将允许Hado0p使用SSH连接到其他节点，而无需输入密码

（3）配置 hadoo-env.sh文件：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162

（4）配置 apred-site.xml文件:

在这里插入图片描述

mapreduce.framework.name：该参数是指定MapReduce框架运行在YARN上

(5)配置 hdfs-site.xml文件：

在这里插入图片描述

dfs.replication:该参数是配置HDFS副本数量

(6)配置 yarn-site.xml文件：

在这里插入图片描述

yarn.resourcemanager.hostsname：该参数是指定ResourceManager运行在那个节点上。
yarn.nodemanager,aux-services：该参数是指定NodeManager启动时加载server的方式。

将Hadoop安装包分发到子节点

scp -r /usr/local/hadoop/ slave1:/usr/local/
scp -r /usr/local/hadoop/ slave2:/usr/local/

将 hadoop 的配置文件修改完成后，在主节点上进行 namenode 格式化

hdfs namenode -format

到 hadoop 的 bin 目录下修改，在 start-dfs.sh 和 stop-dfs.sh 添加以下内容

HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

到 hadoop 的 sbin 目录下修改，在 stop-yarn.sh 添加以下内容

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

三台虚拟机启动 start-all.sh,输入jps查看进程：

master:

在这里插入图片描述

Slave1,2:

在这里插入图片描述