hadoop 3节点高可用分布式安装

1、先对即将安装的服务进行规划

Ip	host	安装软件	进程
10.10.10.5	master	hadoop、zookeeper	NameNode
			DFSZKFailoverController
			JournalNode
			DataNode
			ResourceManager
			jobHistoryServer
			NodeManager
10.10.10.6	slave1	hadoop、zookeeper	NameNode
			DFSZKFailoverController
			JournalNode
			dataNode
			ResourceManager
			NodeManager
			QuoruPeerMain
10.10.10.6	slave2	hadoop、zookeeper	JournalNode
			DataNode
			NodeManager
			QuorumPeerMain

环境准备

关闭防火墙

systemctl stop iptables.service

systemctl disable iptables.service

1、上传安装包 hadoop-2.6.0-cdh5.16.2.tar.gz zookeeper-3.4.5-cdh5.16.2.tar.gz 到 /opt/soft 目录下

2、设置主机名

master:

hostname master

vi /etc/sysconfig/network

slave1:

hostname slave1

slave2:

hostname slave2

配置ip 和hostname 的映射关系

vim cat /etc/hosts

通过将修改后的文件发到slave1 和slave2

scp /etc/hosts root@slave1:/etc/

scp /etc/hosts root@slave2:/etc/

我在三台服务上配置了互信，因此可以直接发送，若不能直接发送，可百度看看互信怎么配置

3、配置jdk 环境 hadoop zookeeper

如图我的jdk jar 包解压的文件在 /usr/local/jdk 、hadoop:/opt/soft2/hadoop zookeeper：/opt/soft2/zookeeper

4、修改zookeeper 配置

cd /opt/soft2/zookeeper/conf

cp zoo_sample.cfg zoo.cfg

vim zoo.cfg

主要修改dataDir，zk 存放数据的路径

mkdir /opt/soft2/zookeeper/zkData

使用 scp -r zookeeper slave1:/opt/soft2/

使用 scp -r zookeeper slave2:/opt/soft2/

将zookeeper 文件整个拷贝到其余节点

在每个节点data目录中根据根据配置文件的

master中 echo 1 > /opt/soft2/zookeeper/zkData/myid

slave1中 echo 2 > /opt/soft2/zookeeper/zkData/myid

slave2中 echo 3 > /opt/soft2/zookeeper/zkData/myid

安装hadoop

修改hadoop 的配置文件

cd /opt/soft2/hadoop/etc/hadoop

vim hadoop-env.sh

配置jdk 环境

配置hadoop的核心配置

vim core-site.xml

<name>fs.defaultFS</name>

<value>hdfs://mycluster</value>

</property>

<name>fs.trash.checkpoint.interval</name>

</property>

<name>fs.trash.interval</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/soft2/hadoop/data</value>

</property>

<name>ha.zookeeper.quorum</name>

<value>master:2181,slave1:2181,slave2:2181</value>

</property>

<name>ha.zookeeper.session-timeout.ms</name>

</property>

<name>hadoop.proxyuser.hadoop.hosts</name>

</property>

<name>hadoop.proxyuser.hadoop.groups</name>

</property>

<name>io.compression.codecs</name>

<value>org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec

</value>

</property>

</configuration>

vim hdfs-site.xml 配置hdfs

<name>dfs.permissions.superusergroup</name>

<value>hadoop</value>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/opt/soft2/hadoop/data/dfsname</value>

<description> namenode 存放name table(fsimage)本地目录（需要修改）</description>

</property>

<name>dfs.namenode.edits.dir</name>

<value>${dfs.namenode.name.dir}</value>

<description>namenode粗放 transaction file(edits)本地目录（需要修改）</description>

</property>

<name>dfs.datanode.data.dir</name>

<value>/opt/soft2/hadoop/data/dfsdata</value>

<description>datanode存放block本地目录（需要修改）</description>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.blocksize</name>

</property>

</property>

<name>dfs.blocksize</name>

</property>

<name>dfs.nameservices</name>

<value>mycluster</value>

</property>

<name>dfs.ha.namenodes.mycluster</name>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn1</name>

<value>master:8020</value>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn2</name>

<value>slave1:8020</value>

</property>

<name>dfs.namenode.http-address.mycluster.nn1</name>

<value>master:50070</value>

</property>

<name>dfs.namenode.http-address.ruozeclusterg10.nn2</name>

<value>ruozedata002:50070</value>

</property>

<name>dfs.journalnode.http-address</name>

</property>

<name>dfs.journalnode.rpc-address</name>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://master:8485;slave1:8485;slave2:8485/mycluster</value>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/home/hadoop/data/dfs/jn</value>

</property>

<name>dfs.client.failover.proxy.provider.ruozeclusterg10</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

<value>/home/hadoop/.ssh/id_rsa</value>

</property>

<name>dfs.ha.fencing.ssh.connect-timeout</name>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

</property>

<name>dfs.hosts</name>

<value>/opt/soft2/hadoop/etc/hadoop/slaves</value>

</property>

</configuration>

修改mapred-site.xml

配置中不存在该配置

cp mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>slave1:19888</value>

</property>

<name>mapreduce.map.output.compress</name>

</property>

<name>mapreduce.map.output.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

</configuration>

vim slaves 将下列添加进去

master

slave1

slave2

vim yarn-env.sh

vim yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.nodemanager.localizer.address</name>

<description>Address where the localizer IPC is.</description>

</property>

<name>yarn.nodemanager.webapp.address</name>

<description>NM Webapp address.</description>

</property>

<name>yarn.resourcemanager.connect.retry-interval.ms</name>

</property>

<name>yarn.resourcemanager.ha.enabled</name>

</property>

<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>

</property>

<name>yarn.resourcemanager.ha.automatic-failover.embedded</name>

</property>

<name>yarn.resourcemanager.cluster-id</name>

<value>yarn-cluster</value>

</property>

<name>yarn.resourcemanager.ha.rm-ids</name>

</property>

<!--这里RM主备结点需要单独指定,（可选）

<name>yarn.resourcemanager.ha.id</name>

</property>

-->

<name>yarn.resourcemanager.scheduler.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>

</property>

<name>yarn.resourcemanager.recovery.enabled</name>

</property>

<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>

</property>

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>

<name>yarn.resourcemanager.zk-address</name>

<value>master:2181,slave1:2181,slave2:2181</value>

</property>

<name>yarn.resourcemanager.zk.state-store.address</name>

<value>master:2181,slave1:2181,slave2:2181</value>

</property>

<name>yarn.resourcemanager.address.rm1</name>

<value>master:23140</value>

</property>

<name>yarn.resourcemanager.address.rm2</name>

<value>slave1:23140</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm1</name>

<value>master:23130</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm2</name>

<value>slave1:23130</value>

</property>

<name>yarn.resourcemanager.admin.address.rm1</name>

<value>master:23141</value>

</property>

<name>yarn.resourcemanager.admin.address.rm2</name>

<value>slave1:23141</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm1</name>

<value>master:23125</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm2</name>

<value>slave1:23125</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm1</name>

<value>master:8088</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm2</name>

<value>slave1:8088</value>

</property>

<name>yarn.resourcemanager.webapp.https.address.rm1</name>

<value>master:23189</value>

</property>

<name>yarn.resourcemanager.webapp.https.address.rm2</name>

<value>slave1:23189</value>

</property>

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log.server.url</name>

<value>http://master:19888/jobhistory/logs</value>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

<name>yarn.scheduler.minimum-allocation-mb</name>

<discription>单个任务可申请最少内存，默认1024MB</discription>

</property>

<name>yarn.scheduler.maximum-allocation-mb</name>

<discription>单个任务可申请最大内存，默认8192MB</discription>

</property>

<name>yarn.nodemanager.resource.cpu-vcores</name>

</property>

</configuration>

启动zk

三台电脑均执行：启动 zkServer.sh start 查看状态 zkServer.sh status

启动hadoop(hdfs+yarn)

1、三台电脑均启动日志 JournalNode

hadoop-daemon.sh start journalnode

2、格式化hadoop

hadoop namenode -format

将生成的元数据发送到各个节点

[root@master hadoop]# scp -r data slave1:/opt/soft2/hadoop/

fsimage_0000000000000000000 100% 317 0.3KB/s 00:00

VERSION 100% 202 0.2KB/s 00:00

fsimage_0000000000000000000.md5 100% 62 0.1KB/s 00:00

seen_txid

3、初始化zkfc

hdfs zkfc -formatZK

4、启动hdfs的分布式文件系统

start-dfs.sh

5、启动yarn

start-yarn.sh

关闭集群

关闭yarn stop-yarn.sh

关闭hdfs stop-dfs.sh

关闭zookeeper: 所有的节点都执行 zkServer.sh stop

启动集群

1、启动zookeeper 所有的节点都执行 zkServer.sh start 2、启动hadoop start-dfs.sh start-yarn.sh 另一个备份节点 yarn-daemon.sh start resourcemanager

监控集群： hdfs dfsadmin -report

猜你喜欢

目录

热门文章