手动搭建hadoop集群环境 - 代码天地

手动搭建hadoop集群环境

其他 2018-05-08 23:00:00 阅读次数: 3

Hadoop分布式集群部署安装

1 Hadoop分布式集群部署安装
在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步activenamenode的状态，以便能够在它失败时快速进行切换。
hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM。这里我们使用简单的QJM。在该方案中，主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode
这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当ActiveNameNode挂掉了，会自动切换Standby NameNode为active状态。

1.1 Hadoop分布式集群工作原理图
1.2 集群规划
主机名   IP   安装软件   运行进程
ha1   192.168.137.171   Jdk、Scala、Zookeep、Hadoop、Spark   NameNode、DataNode、JournalNode、QuorumPeerMain、DFSZKFailoverController、ResourceManager、NodeManager、Spark Worker
ha2   192.168.137.172   Jdk、Scala、Zookeep、Hadoop、Spark   NameNode、DataNode、JournalNode、QuorumPeerMain、DFSZKFailoverController、NodeManager、Spark Worker
ha3   192.168.137.173   Jdk、Scala、Zookeep、Hadoop、Spark   DataNode、JournalNode、QuorumPeerMain、ResourceManager、NodeManager、Spark Master、Spark Worker

1.3 相关软件
1、jdk-8u131-linux-x64.tar.gz
2、hadoop-2.6.4.tar.gz
3、zookeeper-3.4.5.tar.gz
4、scala-2.10.4.tgz
5、spark-1.6.1-bin-hadoop2.6.tgz

1.4 修改主机名称配置hosts文件

修改主机名
修改ha1虚拟机主机名：
执行命令: vi /etc/sysconfig/network
修改里面的HOSTNAME=ha1.ry600.com
同理，修改ha2为 ha2.ry600.com
同理，修改ha3为 ha3.ry600.com

配置ha1服务器，执行命令：vi /etc/hosts
127.0.0.1 localhost
192.168.137.171 ha1.ry600.com
192.168.137.172 ha2.ry600.com
192.168.137.173 ha3.ry600.com

其它服务器scp命令进行复制：
scp /etc/hosts 192.168.137.172:/etc/
scp /etc/hosts 192.168.137.173:/etc/

1.5 配置ssh免密码登录
产生密钥，执行命令：ssh-keygen -t rsa
按4回车，密钥文件位于~/.ssh文件
在ha1上生产一对钥匙，将公钥拷贝到其他节点，包括自己，执行命令：
   ssh-copy-id ha1.ry600.com
   ssh-copy-id ha2.ry600.com
   ssh-copy-id ha3.ry600.com
(备选：还可以继续在ha2,ha3上生成密钥拷贝到其他节点)

1.6 关闭防火墙
关闭命令： service iptables stop
永久关闭防火墙：chkconfig iptables off

两个命令同时运行，运行完成后查看防火墙关闭状态
service iptables status

1.7 上传服务器
ha1服务器创建hasoft目录后，
命令: mkdir /hasoft
再将相关软件进行上传
命令: cd /hasoft
解压JDK：
执行命令：tar -zxvf jdk-8u131-linux-x64.tar.gz
解压：Hadoop:
执行命令：tar -zxvf hadoop-2.6.4.tar.gz
解压Zookeeper：
执行命令：tar -zxvf zookeeper-3.4.5.tar.gz
解压Scala：
执行命令：tar -zxvf scala-2.10.4.tgz
解压Spark：
执行命令：tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz

1.8 设置环境变量
ha1修改profilie文件：
执行命令：vi /etc/profile
在文件尾端添加:
export JAVA_HOME=/hasoft/jdk1.8.0_131
export SCALA_HOME=/hasoft/scala-2.10.4
export HADOOP_HOME=/hasoft/hadoop-2.6.4
export SPARK_HOME=/hasoft/spark-1.6.1-bin-hadoop2.6
export PATH=${JAVA_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH

1.9 Zookeeper集群配置：
1、ha1修改zoo.cfg文件:
执行命令：
cd /hasoft/zookeeper-3.4.5/conf
cp zoo_sample.cfg zoo.cfg
修改内容，执行命令: vi zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
clientPort=2181
dataDir=/hasoft/zookeeper-3.4.6/data
dataLogDir=/hasoft/zookeeper-3.4.6/logs
server.1 = ha1.ry600.com:2888:3888
server.2 = ha2.ry600.com:2888:3888
server.3 = ha3.ry600.com:2888:3888

2、服务器标识配置
创建文件夹,
命令: cd /hasoft/zookeeper-3.4.5
命令：mkdir data
命令i
(相当于创建myid文件，内容为服务器标识：1)。

1.10 hadoop配置文件(ha1)：
1、修改hadoop-env.sh配置文件:
执行命令：
vi /hasoft/hadoop-2.6.4/etc/hadoop/hadoop-env.sh
修改内容：
export JAVA_HOME=/hasoft/jdk1.8.0_131
2、切换目录
执行命令：cd /hasoft/hadoop-2.6.4/etc/hadoop

3、修改core-site.xml配置文件:
执行命令：
vi core-site.xml
修改内容：

<configuration>
        
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://ns1</value>
        </property>

        
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/hasoft/hadoop-2.6.4/tmp</value>
        </property>

        
        <property>
            <name>ha.zookeeper.quorum</name>
            <value>ha1.ry600.com:2181,ha2.ry600.com:2181,ha3.ry600.com:2181</value>
        </property>
    </configuration>
4、修改hdfs-site.xml配置文件:
执行命令：
vi hdfs-site.xml
修改内容：

<configuration>
        
        <property>
            <name>dfs.nameservices</name>
            <value>ns1</value>
        </property>
        
        <property>
            <name>dfs.ha.namenodes.ns1</name>
            <value>nn1,nn2</value>
        </property>
        
        <property>
            <name>dfs.namenode.rpc-address.ns1.nn1</name>
            <value>ha1.ry600.com:9000</value>
        </property>
        
        <property>
            <name>dfs.namenode.http-address.ns1.nn1</name>
            <value>ha1.ry600.com:50070</value>
        </property>
        
        <property>
            <name>dfs.namenode.rpc-address.ns1.nn2</name>
            <value>ha2.ry600.com:9000</value>
        </property>
        
        <property>
            <name>dfs.namenode.http-address.ns1.nn2</name>
            <value>ha2.ry600.com:50070</value>
        </property>
        
        <property>
            <name>dfs.namenode.shared.edits.dir</name>
            <value>qjournal://ha1.ry600.com:8485;ha2.ry600.com:8485;ha3.ry600.com:8485/ns1</value>
        </property>
        
        <property>
            <name>dfs.journalnode.edits.dir</name>
            <value>/hasoft/hadoop-2.6.4/journal</value>
        </property>
        
        <property>
            <name>dfs.ha.automatic-failover.enabled</name>
            <value>true</value>
        </property>
        
        <property>
            <name>dfs.client.failover.proxy.provider.ns1</name>
            <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
        </property>
        
        <property>
            <name>dfs.ha.fencing.methods</name>
            <value>
                sshfence
                shell(/bin/true)
            </value>
        </property>
        
        <property>
            <name>dfs.ha.fencing.ssh.private-key-files</name>
            <value>/root/.ssh/id_rsa</value>
        </property>
        
        <property>
            <name>dfs.ha.fencing.ssh.connect-timeout</name>
            <value>30000</value>
        </property>
    </configuration>
5、修改mapred-site.xml配置文件:
执行复制命令：cp mapred-site.xml.template  mapred-site.xml
        修改文件：vi mapred-site.xml
修改内容：

<configuration>
        
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
6、修改yarn-site.xml配置文件:
执行命令：
    vi yarn-site.xml
修改内容：

<configuration>
   
   <property>
   <name>yarn.resourcemanager.ha.enabled</name>
   <value>true</value>
   </property>
   
   <property>
   <name>yarn.resourcemanager.cluster-id</name>
   <value>YarnCluster</value>
   </property>
   
   <property>
   <name>yarn.resourcemanager.ha.rm-ids</name>
   <value>rm1,rm2</value>
   </property>
   
   <property>
   <name>yarn.resourcemanager.hostname.rm1</name>
   <value>ha1.ry600.com</value>
   </property>
   <property>
   <name>yarn.resourcemanager.hostname.rm2</name>
   <value>ha3.ry600.com</value>
   </property>

<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>

<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>

<property>
   <name>yarn.resourcemanager.zk-address</name>
   <value>ha1.ry600.com:2181,ha2.ry600.com:2181,ha3.ry600.com:2181</value>
   </property>
   
   <property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
   </property>
</configuration>
7、修改slaves配置文件:
执行命令：vi slaves
修改内容为:
ha1.ry600.com
ha2.ry600.com
ha3.ry600.com

1.11 Spark配置文件(ha1)

1 配置spark-env.sh
执行命令： cd /hasoft/spark-1.6.1-bin-hadoop2.6/conf
执行命令：cp spark-env.sh.template spark-env.sh
执行命令： vi spark-env.sh
在spark-env.sh文件中添加如下内容：
export JAVA_HOME=/hasoft/jdk1.8.0_131
export SCALA_HOME=/hasoft/scala-2.10.4
export HADOOP_CONF_DIR=/hasoft/hadoop-2.6.4/etc/hadoop

2 配置slaves
执行命令： cp slaves.template slaves
执行命令： vi slaves

slaves文件内容修改如下：
# A Spark Worker will be started on each of the machines listed below.
ha1.ry600.com
ha2.ry600.com
ha3.ry600.com

1.12 ha1 拷贝程序及配置文件到其它服务器（ha2、ha3）
1 复制文件
执行命令：scp -r /etc/profile ha2.ry600.com:/etc/
执行命令：scp -r /etc/profile ha3.ry600.com:/etc/
执行命令：scp -r /hasoft ha2.ry600.com:/
执行命令：scp -r /hasoft ha3.ry600.com:/

2 修改配置文件
执行命令:vi /hasoft/zookeeper-3.4.6/data/myid
将ha2的myid内容修改为2
将ha3的myid内容修改为3

3 刷新环境变量
执行命令：source /etc/profile 刷新环境变量

1.13 启动Zookeeper：
1 分别在ha1、ha2、ha3启动zookeeper
执行命令：/hasoft/zookeeper-3.4.6/bin/zkServer.sh start

2 所有机器启动完毕，查看启动状态
执行命令：/hasoft/zookeeper-3.4.6/bin/zkServer.sh status

1.14 启动journalnode：
分别在ha1、ha2、ha3上启动journalnode，注意：是调用的hadoop-daemon.sh这个脚本:
分别执行命令：/hasoft/hadoop-2.7.3/sbin/hadoop-daemon.sh start journalnode

1.15 格式化文件系统：
在ha1服务器上进行：HDFS文件系统进行格式化，执行命令：
hdfs namenode -format

验证：提示如下信息表示成功：

INFO common.Storage: Storage directory/usr/local/software/hadoop_2.7.1/tmp/dfs/name has been successfully formatted.

Hadoop的运行时文件存放路径为：tmp目录，ha1需要和ha2一致，进行拷贝(nameNode元数据)：
执行命令：scp -r /hasoft/hadoop-2.7.3/tmp ha2.ry600.com:/hasoft/hadoop-2.7.3/

1.16 格式化formatZK：
只需要在ha1上进行执行命名即可：
执行命令：hdfs zkfc -formatZK
验证：
  打开ha1服务器zookeeper客户端，查看是否存在hadoop-ha节点
  执行命令：/hasoft/zookeeper-3.4.6/bin/zkCli.sh
  查看节点命令：ls /

1.17 启动HDFS：
1、只需要在ha1上启动HDFS，
执行命令：/hasoft/hadoop-2.7.3/sbin/start-dfs.sh
验证启动HDFS：

Java Jps：JDK提供查看当前进程的小工具。
NameNode:它是Hadoop中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问。
DFSZKFailoverController会定期通过该rpc调用proxy.monitorHealth()来监测NN的健康状况。
1.18 启动YARN：
1、只需要在ha1上启动YARN，
执行命令：/hasoft/hadoop-2.7.3/sbin/start-yarn.sh

2、验证启动YARN:

Jps：JDK提供查看当前java进程的小工具。
ResourceManager:接收客户端任务请求，接收和监控NodeManager(NM)的资源情况汇报，负责资源的分配与调度，启动和监控ApplicationMaster(AM)。

1.19 启动Spark
ha1执行命令: /hasoft/spark-2.2.0-bin-hadoop2.7/sbin/start-all.sh

1.20 访问服务页面：
访问地址验证启动服务，访问地址：
HDFS管理界面：http://192.168.137.171:50070/

YARN管理界面：http://192.168.137.171:8088/

http://192.168.137.171:8080/SPARK管理界面: ：

1.21 验证HDFS - HA主备切换：
1、验证ha1服务器NameNode和ha2服务器NameNode数据文件是否可以共享：
在ha1上传文件hosts文件:
执行命令：hadoop fs -put /etc/hosts /

杀掉ha1 NameNode进程，执行命令：
查看进程：jps
Kill -9 6068

验证成功

2、启动ha1上的NameNode进程，将ha2服务器进行强制关机，验证是否可以激活ha1：
启动ha1服务器NameNode进程：
执行命令：/hasoft/hadoop-2.6.4/sbin/hadoop-daemon.sh start namenode

将ha2服务进行关机处理：

主备切换对比图：

1.22 日常启动步骤:
分别在ha1、ha2、ha3启动zookeeper
执行命令：/hasoft/zookeeper-3.4.5/bin/zkServer.sh start

只需要在ha1或ha2上启动HDFS，
执行命令：/hasoft/hadoop-2.6.4/sbin/start-dfs.sh

只需要在ha1或ha3上启动YARN，
执行命令：/hasoft/hadoop-2.6.4/sbin/start-yarn.sh
启动另外一台机器的ResourceManager
执行命令: /hasoft/hadoop-2.6.4/sbin/yarn-daemon.sh start resourcemanager

只需要在ha1或ha2或ha3启动Spark:
执行命令: /hasoft/spark-1.6.1-bin-hadoop2.6/sbin/start-all.sh

猜你喜欢

转载自my.oschina.net/u/3012047/blog/1796191

手动搭建hadoop集群环境

hadoop集群部署（手动）

kafka 集群搭建（手动）

手动搭建redis集群

手动搭建kubernetes集群（三）

【mimic】ceph集群手动搭建

Hadoop集群搭建-HA高可用（手动切换模式）

手动搭建php环境

手动搭建python环境的事

手动搭建PHP开发环境

php环境手动搭建

手动搭建Apache环境

PHP手动环境搭建

hadoop大数据平台手动搭建-hadoop

hadoop大数据平台手动搭建(二)-hadoop

hadoop大数据平台手动搭建-sqoop

hadoop大数据平台手动搭建-spark

hadoop大数据平台手动搭建-hbase

hadoop大数据平台手动搭建-ssh,ntp

hadoop大数据平台手动搭建-hive

hadoop大数据平台手动搭建-hue

hadoop大数据平台手动搭建(七)-hue

hadoop大数据平台手动搭建(六)-spark

hadoop大数据平台手动搭建(五)-sqoop

hadoop大数据平台手动搭建(四)-hbase

hadoop大数据平台手动搭建(三)-hive

手动搭建高可用的kubernetes 集群

Docker Swarm集群环境手动部署

大数据 -- Cloudera Manager(简称CM)+CDH构建大数据平台大数据 -- Hadoop集群环境搭建 Linux配置ntp时间服务器（全） CDH集群手动导入scm库

Hadoop大数据平台个人开发环境手动搭建(CDH版本) 伪分布式

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)