Hadoop伪分布式配置与测试--spark基础（20180607云计算实验）

课程原地址：http://hbust.shiyanbar.com/course/91079

上课老师：李歆

实验时间：20180607

地点：云桌面

实验人：郭畅

实验目的

1) 学会hadoop伪分布式配置

2) 理解伪分布式配置的配置文件

实验原理

Hadoop伪分布式配置是在没有多台计算机节点的情况下，对hadoop的分布式存储和计算进行模拟安装和配置。通过在一台计算机节点上解压hadoop安装压缩包后，然后进行hadoop相关文件进行配置，让hadoop的核心进程都运行在同一台机器上并实现对数据存储和计算的测试支持。此时的配置环境并没有达到真实的分布式存储和分布式计算。

实验环境

本次环境是：centos6.5 + jdk1.7.0_79

实验步骤

一解压/usr/hadoop/hadoop-2.4.1.tar.gz压缩包

1.1 在linux系统下，首先执行`cd /` 命令进入linux根目录，然后在该目录下执行命令：`mkdir simple`创建一个目录文件simple，如果已经存在simple目录不需要再创建。如图1所示:

图1

1.2 创建simple目录之后，在linux根目录下通过`ls`命令进行验证是否创建成功。

如图2所示:

图2

1.3 在simple目录下执行解压命令。如图3所示:

图3

二配置hadoop文件

2.1 切换到/simple/hadoop-2.4.1/etc/hadoop目录下并查看。如图4所示

图4

2.2 在/simple/hadoop-2.4.1/etc/hadoop目录下执行命令：`vi hadoop-env.sh`，按`i`键之后进入编辑状态，在文件中添加如下内容: export JAVA_HOME=/simple/jdk1.7.0_79。如图5所示

图5

2.3 在/simple/hadoop-2.4.1/etc/hadoop目录下执行`vi core-site.xml`并修改配置文件core-site.xml的内容如下(实际修改不需要写中文注释)在`<configuration>`标签中添加。

```java

<!--指定fs的缺省名称-->`

<property>

   <name>fs.default.name</name>

   <value>hdfs://192.168.1.2:9000</value>

 </property>

<!--指定HDFS的（NameNode）的缺省路径地址 ：simple02是计算机名，也可以是ip地址-->

<property>

<name>fs.defaultFS</name>

 <value>hdfs://192.168.1.2:9000</value>

</property>

<!-- 指定hadoop运行时产生文件的存储目录 -->

<property>

<name>hadoop.tmp.dir</name>

<value>/simple/hadoop-2.4.1/tmp</value>

</property>

```

2.4 在/simple/hadoop-2.4.1/etc/hadoop目录下执行`vi hdfs-site.xml`并修改配置文件hdfs-site.xml

```java

<!-- 指定HDFS副本的数量 -->

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

      <name>dfs.name.dir</name>

      <value>/simple/hadoop-2.4.1/hdfs/name</value>

</property>

<property>

    <name>dfs.data.dir</name>

<value>/simple/hadoop-2.4.1/hdfs/data</value>

 </property>

```

2.5 在/simple/hadoop-2.4.1/etc/hadoop目录下查看是否有配置文件mapred-site.xml。目录下默认情况下没有该文件，可通过执行如下命令：`mv mapred-site.xml.template mapred-site.xml`修改一个文件的命名，然后执行编辑文件命令：`vi mapred-site.xml`并修改该文件内容

```java

<!-- 指定mr运行在yarn上 -->

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

```

2.6 在/simple/hadoop-2.4.1/etc/hadoop目录下执行`vi yarn-site.xml`并修改配置文件内容如下

```java

<!-- 指定YARN的老大（ResourceManager）的地址 -->`

<property>

<name>yarn.resourcemanager.hostname</name>

<value>192.168.1.2</value>

</property>

<!-- reducer获取数据的方式 -->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

```

2.7执行`vi /etc/profile`。把hadoop的安装目录配置到环境变量中。如图7所示

然后让配置文件生效:`source /etc/profile`。如图7所示