linux大数据集群搭建--云服务器 hadoop集群搭建

<configuration>
     <property>
         <name>fs.default.name</name>
         <value>hdfs://node01:8020</value>
         <!-- 是hdfs端口,用于远程连接 -->
     </property>
    <property>
         <name>hadoop.tmp.dir</name>  
         <value>/export/servers/hadoop-2.7.5/hadoopDatas/tempDatas</value>
         <!-- hadoop.tmp.dir 临时文件 服务端参数，修改需重启 -->
     </property>
     <!-- 缓冲区大小，实际工作中根据服务器性能动态调整 -->
     <property>
         <name>io.file.buffer.size</name>
         <value>4096</value>
         <!-- 在序列文件中使用的读/写缓冲区的大小。单位kb -->
     </property>
     <property>
         <name>fs.trash.interval</name>
         <value>10080</value>
         <!-- 开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位分钟 -->
     </property>
</configuration>

2 修改hdfs-site.xml

第一台机器执行以下命令
cd /export/servers/hadoop-2.7.5/etc/hadoop
vim hdfs-site.xml

<configuration>
 <property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>node01:50090</value>
     <!-- node1:50090 SecondaryNameNode地址和端口-->
 </property>
 <property>
     <name>dfs.namenode.http-address</name>
     <value>node01:50070</value>
      <!--node01:50070 namenode端口地址 -->
 </property>
 <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/servers/hadoop-
 </property>
 <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2</value>

 </property>
 
 <property>
     <name>dfs.namenode.edits.dir</name>
     <value>file:///export/servers/hadoop-2.7.5/hadoopDatas/nn/edits</value>
 </property>
 
 <property>
     <name>dfs.namenode.checkpoint.dir</name>
     <value>file:///export/servers/hadoop-2.7.5/hadoopDatas/snn/name</value>
 </property>
    
 <property>
     <name>dfs.namenode.checkpoint.edits.dir</name>
     <value>file:///export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>
     <!-- 建议不使用SNN功能，忽略此配置 -->
 </property>
 
 <property>
     <name>dfs.replication</name>
     <value>3</value>
     <!-- 数据块副本数。此值可以在创建文件时设定，客户端可以只有设定，也可以在命令行修改。不同文件可以有不同的副本数。默认值用于未指定时。 -->
 </property>
 
 <property>
     <name>dfs.permissions</name>
     <value>false</value>
     <!-- 是否在HDFS中开启权限检查. -->
 </property>
 
 <property>
     <name>dfs.blocksize</name>
     <value>134217728</value>
 </property>
</configuration>

3 修改hadoop-env.sh

第一台机器执行以下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop
vim hadoop-env.sh
export JAVA_HOME=/export/servers/jdk1.8.0_161

4 修改mapred-site.xml

第一台机器执行以下命令
cd /export/servers/hadoop-2.7.5/etc/hadoop

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<configuration>
     <property>
         <name>mapreduce.job.ubertask.enable</name>
         <value>true</value>
     </property>
     <property>
         <name>mapreduce.jobhistory.address</name>
         <value>server02:10020</value>
         <!-- MapReduce JobHistory服务器IPC主机：端口 -->
     </property>
     <property>
         <name>mapreduce.jobhistory.webapp.address</name>
         <value>server02:19888</value>
         <!-- MapReduce JobHistory Server Web UI主机：端口-->
     </property>
</configuration>

5 修改yarn-site.xml

第一台机器执行以下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop
vim yarn-site.xml

 <configuration>
      <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>server02</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
    <property>   
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>20480</value>
    </property>
    <property> 
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
    </property>
    <property> 
        <name>yarn.resourcemanager.webapp.address</name>
        <value>127.0.0.1:8050</value>
        <!-- 资源调度器对应的端口 可不用-->
    </property>
</configuration>

6 修改mapred-env.sh

第一台机器执行以下命令

cd /export/servers/hadoop-2.7.5/etc/hadoop
vim mapred-env.sh
export JAVA_HOME=/export/servers/jdk1.8.0_161

7 修改slaves

修改slaves文件，然后将安装包发送到其他机器，重新启动集群即可
第一台机器执行以下命令
cd /export/servers/hadoop-2.7.5/etc/hadoop
vim slaves

server01
server02
server03

8 分发hadoop-2.7.5

第一台机器执行以下命令

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

cd /export/servers/

scp -r hadoop-2.7.5 server01:$PWD
scp -r hadoop-2.7.5 server03:$PWD

第四步: 配置hadoop的环境变量

三台机器都要进行配置hadoop的环境变量

三台机器执行以下命令
vim /etc/profile

export HADOOP_HOME=/export/servers/hadoop-2.7.5
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置完成之后生效

source /etc/profile

第五步: 启动集群

要启动 Hadoop 集群，需要启动 HDFS 和 YARN 两个模块。注意：首次启动 HDFS 时，必须对
其进行格式化操作。本质上是一些清理和准备工作，因为此时的 HDFS 在物理上还是不存在
的。
hdfs namenode -format 或者 hadoop namenode –format
准备启动
第一台机器执行以下命令
cd /export/servers/hadoop-2.7.5/

bin/hdfs namenode -format
sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

第六步:三个端口查看界面

http://node01:50070/explorer.html#/ 查看hdfs
http://node01:8088/cluster 查看yarn集群
http://node01:19888/jobhistory 查看历史完成的任务

   hdfs://node01:8020 hdfs文件链接
   hdfs://node01:50090 SecondaryNameNode地址和端口
   hdfs://node01:50070 nameNode地址端口
127.0.0.1:8050 yarn资源服务器调用端口

sdrfengmi

发布了38 篇原创文章 · 获赞 26 · 访问量 2万+

私信关注