Linux下搭建Hadoop2.7.1伪分布式过程

需要安装的环境资源:

       JDK1.8 链接:https://pan.baidu.com/s/11CFyc-H2K-ZGppnkKk9KPA 提取码:4o3e 
       Hadoop2.7.1 链接:https://pan.baidu.com/s/16FqLT4GIXDiXLgWBbJOKZg 提取码:pwft 

远程访问工具使用SecureCRT8.1,可参考https://mp.csdn.net/postedit/84615230

本人使用的CentOS6.5.min版,资源参考:

        安装过程 https://mp.csdn.net/postedit/84618601

        网络配置https://mp.csdn.net/postedit/84619868

本人的安装过程使用的是普通用户hadoop。

安装步骤:

       第一步:创建hadoop用户

                     创建hadoop用户:useradd hadoop

                     设置密码:passwd hadoop

                     配置hadoop的高级权限:vi /etc/sudoers  增加hadoop的权限

                     

                     

       第二步:安装SSH免密(作用:在启动hadoop的相关进程时,可以不用再输入密码。)

                     安装SSH,命令:ssh-kygen

                     把生成的秘钥文件copy给本地(localhost)

                     

       第三步:上传、解压JDK、Hadoop安装包(本人这里统一放在hadoop用户家的apps目录里,apps是自己创建的空文件夹。)

                     使用SecureCRT中的SFTP工具上传文件到指定的工作目录中,SFTP的使用可参考                                                           https://mp.csdn.net/postedit/84632007中的第二步。

                     

                     解压

                     

                    使用普通用户hadoop配置JDK全局环境变量

                    

                     在/etc/profile文件末尾添加:

                             JAVA_HOME=JDK的解压路径

                             HADOOP_HOME=HADOOP的解压路径

                             

                     检查配置是否成功

                            source /etc/profile   更新/etc/profile文件

                            java -version       查看JDK的版本号

                            hadoop version      查看Hadoop的版本号

                            

        第四步:配置Hadoop文件(配置文件在Hadoop安装包的etc/hadoop目录下)

                      1、配置Hadoop的core-site.xml文件

                            <configuration>

                    <property>

                           <name>fs.defaultFS</name>

                           <value>hdfs://localhost:9000</value>           指定hdfs系统的主机及端口号

                    </property>

                    <property>

                          <name>hadoop.tmp.dir</name>

                          <value>/home/hadoop/apps/hadoop-2.7.1/tmp</value>          指定hadoop的临时文件路径

                    </property>

               </configuration>

           2、配置Hadoop的hdfs-site.xml文件

                <configuration>

      <property>

        <name>dfs.namenode.name.dir</name>

        <value>/home/hadoop/apps/hadoop-2.7.1/data/name</value>     指定namenode节点进程对应文件的存放路径。

      </property>

      <property>

         <name>dfs.datanode.data.dir</name>

         <value>/home/hadoop/apps/hadoop-2.7.1/data/data</value>    指定datanode节点进程对应文件的存放路径

       </property>

       <property>

           <name>dfs.replication</name>

           <value>3</value>

       </property>

       <property>

         <name>dfs.secondary.http.address</name>

         <value>localhost:50090</value>

       </property>

    </configuration>

3、copy一份mapred-site.xml.template 命名为mapred-site.xml文件

      <configuration>

         <property>

             <name>mapreduce.framework.name</name>

             <value>yarn</value>                                              指定mapreduce工作的资源管理器

         </property>

      </configuration>

                         4、配置Hadoop的yarn-site.xml文件

      <configuration>

         <property>

             <name>yarn.resourcemanager.hostname</name>

             <value>localhost</value>   

         </property>

         <property>

             <name>yarn.nodemanager.aux-services</name>

             <value>mapreduce_shuffle</value>

         </property>

      </configuration>

5、修改hadoop的hadoop-env.sh文件

     找到export JAVA_HOME把值设置为JDK的安装路径

     

第五步:Hadoop格式化

              命令hdfs namenode -format

              注意控制台输出的信息,有没有报错,这个时间的报错一般为配置文件的书写错误。

              如果没有报错信息,并且出现了下图中红框中的内容,说明已经格式化成功。

  

第六步:启动分布式文件系统

              命令start-dfs.sh

              启动成功,使用jps查看相关进程,出现Hadoop的三个进程:

                     NameNode

                     DataNode

        SecondaryNameNode

                          这个时间通过浏览器访问http://虚拟机主机IP:50070    可以进入一下界面

                          

           第七步:启动start-yarn.sh

              启动成功,使用jps查看相关进程,出现Hadoop的另外两个进程:

                     NodeManager

                     ResourceManager

第八步:运行Hadoop官网的wordcount实例

              1、上传Linux系统中的任意文件到HDFS分布式文件系统的跟目录下。

                    命令hadoop fs -put  Linux系统中的文件路径 /

                    如:hadoop fs /home/hadoop/apps/hadoop-2.7.1/etc/hadoop/core-site.xml /

              2、运行Hadoop官方wordcount实例

                    命令hadoop fs jar hadoop安装目录/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar  wordcount /core-site.xml /output

                    如:hadoop jar /home/hadoop/apps/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /core-site.xml /output

                   运行过程没有报错,说明Hadoop伪分布式环境已经完成。

         

                   使用hadoop fs -ls /output/命令可以查看计算结果文件,使用hadoop fs -cat /output/part-r-00000可以查看结果信息。

猜你喜欢

转载自blog.csdn.net/ailian_f/article/details/84629224