windows下配置hadoop集群

你们要操作的话，最好先跟着“黑曼巴007”，我这边遇到的问题，你们可以参考一下。

挂个JDK,HADOOP百度云链接吧：

链接：https://pan.baidu.com/s/1LMNR40wlA50W-nnFH0dCtA
提取码：c24w
复制这段内容后打开百度网盘手机App，操作更方便哦

实验一 Apache Hadoop环境搭建

一、实验目的

1、通过实验了解Hadoop安装的基本过程；

2、通过实验掌握配置SSH的方法，掌握安装、配置Hadoop的方法，掌握启动、关闭Hadoop的命令。

二、实验内容

根据老师的要求：Hadoop安装。此篇实验报告基于互联网上CSDN博主“黑曼巴007”：https://blog.csdn.net/qq_35535690，接下来就是自己动手实践的整个过程，期间可能会遇到一些问题，但是我一定会尽力解决。所采用的设备和软件版本是：

Win10专业版64位；

Hadoop版本2.10.1；

JDK版本1.8；

安装JDK

JDK安装，环境变量的配置，

此时，JDK就已经安装好了（实际上在去年十一月份的时候，我就已经安装好了，搭配eclipse使用，但是后来由于用python比较多，所以eclipse太占内存就被我卸载了，但是JDK我没有卸载哦！）

打开CMD查看是否安装正确：

Beautiful，1.8的JDK安装成功。

下载、安装Hadoop

下载Hadoop到本地，准备安装：

使用网上别人配置过的bin和etc目录替换hadoop-2.10.1.tar.gz中的bin和etc目录，配置环境变量：

打开etc\hadoop\hadoop-env.cmd文件，修改set JAVA_HOME=为你自己的JAVA_HOME。

在根目录下添加data和tmp这两个文件夹：

再在data下添加datanode和namenode这两个文件夹：

修改hdfs-site.xml文件中的datanode和namenode

为（你新建的datanode和namenode）：

再把

hadoop.dll从这里拷贝到C:\Windows\System32：

打开cmd测试的时候发现出问题了：

我就在想，是哪出错了，如果是这种报错方式的话，应该是环境变量设置错误了，于是回到环境变量处，一看，果然：

没拼写对，一边写的是HADOPP，一边写的是HADOOP，这怎么可能调用正确嘛，改过来后，重新CMD测试：

结果还是不对，然后可能是JAVA_HOME有问题，我就返回到博客中，发现在设置hadoop-env.cmd的时候，博客原文说到PROGRA~1代表Program Files，然后我发现我确实没用PROGRA~1代表Program Files，然后我改成：

CMD测试：

成功了。然后进入sbin目录，输入start-all：

出现了四个窗口，则说明启动hadoop集群成功：

输入jps –查看所有节点：

访问http://localhost:50070，即可访问Hadoop的web界面。

然后访问http://localhost:8088/的时候：

然后关了防火墙，不行；使用ip:8088模式访问，不行；修改yarn-site.xml，不行。。。我网上看，发现使用jps –的时候，只有四个节点，并没有resourceManager这个节点，然后我再看打开的四个窗口中的一个，发现和其它三个不一样：

而且这边还报错了，我网上一搜，别人说：

于是我照着这样做，将其复制到lib下：

再次启动、使用jps –查看节点：

再到浏览器中访问8088：

成功！！！YES！！！

关闭Hadoop

直接输入Stop-all：

则可关闭Hadoop。

三、总结与思考

摘要：本文从Hadoop的初衷、大数据时代背景、Hadoop的使用者来探讨“Hadoop能做什么”这个问题。

关键词：Hadoop 大数据

Hadoop是Doug Cutting 基于Google公司的GFS和MapReduce思想不断完善项目Nutch中脱胎而出的。

Hadoop是适合于大数据的分布式存储和处理平台，是一种开源的框架。

大数据时代已经到来，给我们的生活、工作、思维方式都带来变革。如何寻求大数据后面的价值，既是机遇又是挑战。不管是金融数据、还是电商数据、又还是社交数据、游戏数据.......这些数据的规模、结构、增长的速度都给传统数据存储和处理技术带来巨大考验。幸运的是，Hadoop的诞生和所构建成的生态系统给大数据的存储、处理和分析带来了曙光。

不管是国外的著名公司Google、Yahoo!、微软、亚马逊、 EBay、FaceBook、Twitter、LinkedIn等和初创公司Cloudera、Hortonworks等，又还是国内的著名公司中国移动、阿里巴巴、华为、腾讯、百度、网易、京东商城等，都在使用Hadoop及相关技术解决大规模化数据问题，以满足公司需求和创造商业价值。

例如：Yahoo! 的垃圾邮件识别和过滤、用户特征建模；Amazon.com（亚马逊）的协同过滤推荐系统；Facebook的Web日志分析；Twitter、LinkedIn的人脉寻找系统；淘宝商品推荐系统、淘宝搜索中的自定义筛选功能......这些应用都使用到Hadoop及其相关技术。

“Hadoop能做什么？” ，概括如下：

1、搜索引擎（Doug Cutting 设计Hadoop的初衷，为了针对大规模的网页快速建立索引）。

2、大数据存储，利用Hadoop的分布式存储能力，例如数据备份、数据仓库等。

3、大数据处理，利用Hadoop的分布式处理能力，例如数据挖掘、数据分析等。

4、科学研究，Hadoop是一种分布式的开源框架，对于分布式计算有很大程度地参考价值。

原文链接：https://blog.csdn.net/wangloveall/article/details/20029357

所以呢，通俗来讲，hadoop就是一种分布式存储、处理大数据的平台、框架。在数据量极大丰富的今天，能够高效的分析数据，是一种手段，更是一种智慧。

windows下配置hadoop集群

猜你喜欢