一、hadoop2.4编译方法可参考：Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 。

二、准备工具

1.部署准备两个机器test1为Master，test2为Slave。

在两个机器上分别vim /etc/hosts
    加入如下内容：
    192.168.1.100 test1
    192.168.1.200 test2

2.增加hadoop用户

    groupadd hadoop
    useradd hadoop -g hadoop
    passwd hadoop

3.设置Master无密码登录slave

 在test1下生成公钥/私钥对并复制到test2上。
   su hadoop
   ssh-keygen -t rsa -P ''
   scp ~/.ssh/id_rsa.pub hadoop@test2:~/.ssh/id_rsa.pub 
 test2把从test1复制的id_rsa.pub添加到.ssh/authorzied_keys文件里
   cat id_rsa.pub >> authorized_keys
   chmod 600 .ssh/authorized_keys

4.修改句柄数：

   ulimit -n 65535
   vim /etc/security/limits.conf增加如下内容：
      \*    hard    nofile   65535
      \*    soft    nofile   65535

三、配置hadoop

将编译好的hadoop2.4.0解压后修改etc/hadoop目录里的配置文件。

1.修改hadoop-env.sh

  export JAVA_HOME=/opt/jdk

2.修改core-site.xml

<property>
    <name>fs.default.name</name>
    <value>hdfs://HDP125:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/${user.name}/tmp</value>
</property>
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>

说明：

　　fs.defaultDFS：设置NameNode的IP和端口

　　hadoop.tmp.dir：设置Hadoop临时目录，（默认/tmp，机器重启会丢失数据！）

　　fs.trash.interval：开启Hadoop回收站

3.修改hdfs-site.xml

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>/home/${user.name}/dfs_name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/${user.name}/dfs_data</value>
</property>
<property>
        <name>dfs.support.append</name>
        <value>true</value>
</property>
<property>
        <name>dfs.datanode.max.xcievers</name>
        <value>4096</value>
</property>

说明：

　　dfs.replication：文件复本数

　　dfs.namenode.name.dir：设置NameNode存储元数据(fsimage)的本地文件系统位置

　　dfs.datanode.data.dir：设置DataNode存储数据的本地文件系统位置

　　dfs.support.append：设置HDFS是否支持在文件末尾追加数据

　　dfs.datanode.max.xcievers：设置datanode可以创建的最大xcievers数

4.修改yarn-site.xml

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>master</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
  <name>yarn.timeline-service.hostname</name>
  <value>master</value>
</property>

5.修改mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

6.修改slave

test1
test2

7.把配置好的Hadoop程序复制到其它节点

scp -r /opt/hadoop hadoop@test2:/opt/
chown -R hadoop:hadoop /opt/hadoop

四、启动和关闭hadoop

1.第一次使用一个分布式文件系统，需要对其进行格式化：

  ./bin/hadoop namenode –format

2.启动Hadoop：

  sbin/start-all.sh

3.关闭Hadoop：

  sbin/stop-all.sh

4.Hadoop自带的WEB管理界面

http://test1:50070

Hadoop 2.4安装与配置

一、hadoop2.4编译方法可参考：Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 。

二、准备工具

三、配置hadoop

四、启动和关闭hadoop

猜你喜欢