Linux下搭建Hadoop2.7.1伪分布式过程

需要安装的环境资源：

JDK1.8 链接：https://pan.baidu.com/s/11CFyc-H2K-ZGppnkKk9KPA 提取码：4o3e
Hadoop2.7.1 链接：https://pan.baidu.com/s/16FqLT4GIXDiXLgWBbJOKZg 提取码：pwft

远程访问工具使用SecureCRT8.1，可参考https://mp.csdn.net/postedit/84615230

本人使用的CentOS6.5.min版，资源参考：

安装过程 https://mp.csdn.net/postedit/84618601

网络配置https://mp.csdn.net/postedit/84619868

本人的安装过程使用的是普通用户hadoop。

安装步骤：

第一步：创建hadoop用户

创建hadoop用户：useradd hadoop

设置密码：passwd hadoop

配置hadoop的高级权限：vi /etc/sudoers 增加hadoop的权限

第二步：安装SSH免密（作用：在启动hadoop的相关进程时，可以不用再输入密码。）

安装SSH，命令：ssh-kygen

把生成的秘钥文件copy给本地（localhost）

第三步：上传、解压JDK、Hadoop安装包（本人这里统一放在hadoop用户家的apps目录里，apps是自己创建的空文件夹。）

使用SecureCRT中的SFTP工具上传文件到指定的工作目录中，SFTP的使用可参考 https://mp.csdn.net/postedit/84632007中的第二步。

解压

使用普通用户hadoop配置JDK全局环境变量

在/etc/profile文件末尾添加：

JAVA_HOME=JDK的解压路径

HADOOP_HOME=HADOOP的解压路径

检查配置是否成功

source /etc/profile 更新/etc/profile文件

java -version 查看JDK的版本号

hadoop version 查看Hadoop的版本号

第四步：配置Hadoop文件（配置文件在Hadoop安装包的etc/hadoop目录下）

1、配置Hadoop的core-site.xml文件

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value> 指定hdfs系统的主机及端口号

</property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/apps/hadoop-2.7.1/tmp</value> 指定hadoop的临时文件路径

</property>

</configuration>

2、配置Hadoop的hdfs-site.xml文件

<name>dfs.namenode.name.dir</name>

<value>/home/hadoop/apps/hadoop-2.7.1/data/name</value> 指定namenode节点进程对应文件的存放路径。

</property>

<name>dfs.datanode.data.dir</name>

<value>/home/hadoop/apps/hadoop-2.7.1/data/data</value> 指定datanode节点进程对应文件的存放路径

</property>

<name>dfs.replication</name>

</property>

<name>dfs.secondary.http.address</name>

<value>localhost:50090</value>

</property>

</configuration>

3、copy一份mapred-site.xml.template 命名为mapred-site.xml文件

<name>mapreduce.framework.name</name>

<value>yarn</value> 指定mapreduce工作的资源管理器

</property>

</configuration>

4、配置Hadoop的yarn-site.xml文件

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

5、修改hadoop的hadoop-env.sh文件

找到export JAVA_HOME把值设置为JDK的安装路径

第五步：Hadoop格式化

命令hdfs namenode -format

注意控制台输出的信息，有没有报错，这个时间的报错一般为配置文件的书写错误。

如果没有报错信息，并且出现了下图中红框中的内容，说明已经格式化成功。

第六步：启动分布式文件系统

命令start-dfs.sh

启动成功，使用jps查看相关进程，出现Hadoop的三个进程：

NameNode

DataNode

SecondaryNameNode

这个时间通过浏览器访问http://虚拟机主机IP:50070 可以进入一下界面

第七步：启动start-yarn.sh

启动成功，使用jps查看相关进程，出现Hadoop的另外两个进程：

NodeManager

ResourceManager

第八步：运行Hadoop官网的wordcount实例

1、上传Linux系统中的任意文件到HDFS分布式文件系统的跟目录下。

命令hadoop fs -put Linux系统中的文件路径 /

如：hadoop fs /home/hadoop/apps/hadoop-2.7.1/etc/hadoop/core-site.xml /

2、运行Hadoop官方wordcount实例

命令hadoop fs jar hadoop安装目录/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /core-site.xml /output

如：hadoop jar /home/hadoop/apps/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /core-site.xml /output

运行过程没有报错，说明Hadoop伪分布式环境已经完成。

使用hadoop fs -ls /output/命令可以查看计算结果文件，使用hadoop fs -cat /output/part-r-00000可以查看结果信息。

Linux下搭建Hadoop2.7.1伪分布式过程

猜你喜欢