hadoop的伪分布式安装
hadoop的伪分布式安装是指在一台机器上模拟一个小的集群,但是集群中只有一个节点。
1、我们需要先修改core-site.xml文件。
需要添加内容如下:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2、接着我们修改hdfs-site.xml文件。
需要添加内容如下:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
3、然后执行hadoop namenode -format命令如下图
如果命令执行完毕返回0即表示执行成功。
很不幸,这里返回1
于是,开始查找原因。
查看traceback得知是我手误代码写错。
更正后执行命令,返回值0
程序返回0对程序员来说,是多么心旷神怡的事情啊~
4、接着我们执行start-all.sh命令
需要说明的是:这里是在家目录中执行,是因为已经配置过hadoop的环境变量,在哪里执行都可运行。
5、完成之后,我们输入jps查看
目前一切正常。此时已经可以访问hdfs的web页面了。
浏览器输入http://192.168.1.129:50070即可看到图形界面。
注意:这里的IP地址并不一定是你电脑上的IP地址。
你需要使用下图红框中的IP
进入web页面如下
6、接着我们创建HDFS用户目录
7、然后将本地input文件夹中的数据上传到HDFS的input文件夹
8、接着运行字数统计测试样例,运行截图如下
9、最后执行hadoop fs -cat output/*查看结果
至此,hadoop伪分布式安装完成。