win10搭建hadoop环境

前言

学习大数据框架,hadoop是许多其他框架的基础,因此需要掌握如何快速搭建hadoop的应用环境

通常来说,hadoop本地模式,伪分布模式和完全分布式,本篇以伪分布式单节点为例,快速在win10电脑上搭建出单节点的hadoop的运行环境,linux环境下可类似的操作

环境准备

1、前置准备

JDK环境,至少JDK1.8,相信JDK的环境安装就不再多说了吧,安装之后,确认下是否安装成功
在这里插入图片描述

2、下载合适版本的hadoop安装包

前往如下链接,https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/,本篇用的是2.10.1版本

在这里插入图片描述

3、配置环境变量

下载本地本地的某个目录之后,开始配置hadoop的环境变量
在这里插入图片描述
主要是将bin和sbin目录配置到环境变量中,新建环境变量:HADOOP_HOME,值为bin的全路径
在这里插入图片描述
然后配置到path路径中,这里需要配置2个,bin和sbin,2个都一起配置到环境变量中
在这里插入图片描述

以上配置完毕后,可进入cmd窗口,通过:hadoop -version查看是否配置成功(出现如下提示,表示配置完成)
在这里插入图片描述

4、修改核心配置文件

搭建hadoop最关键的一步,就是几个配置文件的参数修改,主要包括4个核心配置文件,
core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml,初学者可参考本篇提供的配置样例,在后续的深入学习中,了解各个配置文件和参数的深入含义

进入:E:\bigData-tool\spark1\hadoop-2.10.0\etc\hadoop目录,找到上面的几个配置文件,依次修改,在修改之前,需要创建几个文件目录,用于保存hadoop运行过程中产生的数据文件
在这里插入图片描述

我这里在主目录下创建一个workspace目录,在workspace内部分别创建如下几个文件夹
在这里插入图片描述
core-site.xml

<configuration>
  <property>
        <name>hadoop.tmp.dir</name>
        <value>/E:/bigData-tool/spark1/hadoop-2.10.0/workspace/tmp</value>
    </property>
    <property>
        <name>dfs.name.dir</name>
        <value>/E:/bigData-tool/spark1/hadoop-2.10.0/workspace/name</value>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

hdfs-site.xml

<configuration>
 
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
 
    <property>    
        <name>dfs.namenode.name.dir</name>    
        <value>/E:/bigData-tool/spark1/hadoop-2.10.0/workspace/name</value>    
    </property>    
 
    <property>    
        <name>dfs.datanode.data.dir</name>    
        <value>/E:/bigData-tool/spark1/hadoop-2.10.0/workspace/data</value>  
    </property>
 
</configuration>

mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <property>
       <name>mapred.job.tracker</name>
       <value>hdfs://localhost:9001</value>
  </property>
</configuration>

yarn-site.xml

<configuration>
 
        <property>
              <name>yarn.nodemanager.aux-services</name>
              <value>mapreduce_shuffle</value>
        </property>
 
		<property>
              <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
              <value>org.apache.hahoop.mapred.ShuffleHandler</value>
        </property>
 
</configuration>

hadoop-env.cmd

这一步非常重要,通常很多开发的小伙伴安装JDK时候会默认安装在C盘目录下,这里直接将JDK的路径拷贝过来,会报错,导致后续的操作无法进行,本人已经踩过坑了,正确的配置如下:

set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_171

在这里插入图片描述

5、初始化格式化namenode

进入smd窗口,输入:hdfs namenode -format,出现如下效果,说明初始化成功
在这里插入图片描述
6、启动(停止)hadoop

完成上面的操作之后,cmd黑窗口进入hadoop的sbin目录,直接:start-all.cmd开启服务
在这里插入图片描述
输入stop-all.cmd关闭服务
在这里插入图片描述

开启服务之后,会快速弹出4个黑窗口,然后浏览器访问:

http://localhost:8088/cluster ,出现如下界面表示环境搭建成功

在这里插入图片描述

本篇到此结束,最后感谢观看!

猜你喜欢

转载自blog.csdn.net/zhangcongyi420/article/details/118055186