windows下配置hadoop集群

你们要操作的话,最好先跟着“黑曼巴007”,我这边遇到的问题,你们可以参考一下。

挂个JDK,HADOOP百度云链接吧:

链接:https://pan.baidu.com/s/1LMNR40wlA50W-nnFH0dCtA 
提取码:c24w 
复制这段内容后打开百度网盘手机App,操作更方便哦

实验一  Apache Hadoop环境搭建

一、实验目的

1、通过实验了解Hadoop安装的基本过程;

2、通过实验掌握配置SSH的方法,掌握安装、配置Hadoop的方法,掌握启动、关闭Hadoop的命令。

 

二、实验内容

根据老师的要求:Hadoop安装。此篇实验报告基于互联网上CSDN博主“黑曼巴007”:https://blog.csdn.net/qq_35535690,接下来就是自己动手实践的整个过程,期间可能会遇到一些问题,但是我一定会尽力解决。所采用的设备和软件版本是:

Win10专业版64位;

Hadoop版本2.10.1;

JDK版本1.8;

 

  1. 安装JDK

JDK安装,环境变量的配置,

此时,JDK就已经安装好了(实际上在去年十一月份的时候,我就已经安装好了,搭配eclipse使用,但是后来由于用python比较多,所以eclipse太占内存就被我卸载了,但是JDK我没有卸载哦!)

打开CMD查看是否安装正确:

Beautiful,1.8的JDK安装成功。

 

  1. 下载、安装Hadoop

下载Hadoop到本地,准备安装:

使用网上别人配置过的bin和etc目录替换hadoop-2.10.1.tar.gz中的bin和etc目录,配置环境变量:

打开etc\hadoop\hadoop-env.cmd文件,修改set JAVA_HOME=为你自己的JAVA_HOME

在根目录下添加data和tmp这两个文件夹:

再在data下添加datanode和namenode这两个文件夹:

修改hdfs-site.xml文件中的datanode和namenode

为(你新建的datanode和namenode):

再把

hadoop.dll从这里拷贝到C:\Windows\System32

打开cmd测试的时候发现出问题了:

我就在想,是哪出错了,如果是这种报错方式的话,应该是环境变量设置错误了,于是回到环境变量处,一看,果然:

没拼写对,一边写的是HADOPP,一边写的是HADOOP,这怎么可能调用正确嘛,改过来后,重新CMD测试:

结果还是不对,然后可能是JAVA_HOME有问题,我就返回到博客中,发现在设置hadoop-env.cmd的时候,博客原文说到PROGRA~1代表Program Files然后我发现我确实没用PROGRA~1代表Program Files,然后我改成:

CMD测试:

成功了。然后进入sbin目录,输入start-all:

出现了四个窗口,则说明启动hadoop集群成功:

输入jps –查看所有节点:

访问http://localhost:50070,即可访问Hadoop的web界面。

然后访问http://localhost:8088/的时候:

然后关了防火墙,不行;使用ip:8088模式访问,不行;修改yarn-site.xml,不行。。。我网上看,发现使用jps –的时候,只有四个节点,并没有resourceManager这个节点,然后我再看打开的四个窗口中的一个,发现和其它三个不一样:

而且这边还报错了,我网上一搜,别人说:

于是我照着这样做,将其复制到lib下:

再次启动、使用jps –查看节点:

再到浏览器中访问8088:

成功!!!YES!!!

  1. 关闭Hadoop

直接输入Stop-all:

则可关闭Hadoop。

三、总结与思考

摘要:本文从Hadoop的初衷、大数据时代背景、Hadoop的使用者来探讨“Hadoop能做什么”这个问题。

关键词:Hadoop   大数据

Hadoop是Doug  Cutting 基于Google公司的GFS和MapReduce思想不断完善项目Nutch中脱胎而出的。

Hadoop是适合于大数据的分布式存储和处理平台,是一种开源的框架。

大数据时代已经到来,给我们的生活、工作、思维方式都带来变革。如何寻求大数据后面的价值,既是机遇又是挑战。不管是金融数据、还是电商数据、又还是社交数据、游戏数据.......这些数据的规模、结构、增长的速度都给传统数据存储和处理技术带来巨大考验。幸运的是,Hadoop的诞生和所构建成的生态系统给大数据的存储、处理和分析带来了曙光。

不管是国外的著名公司Google、Yahoo!、微软、亚马逊、 EBay、FaceBook、Twitter、LinkedIn等和初创公司Cloudera、Hortonworks等,又还是国内的著名公司中国移动、阿里巴巴、华为、腾讯、百度、网易、京东商城等,都在使用Hadoop及相关技术解决大规模化数据问题,以满足公司需求和创造商业价值。

例如:Yahoo! 的垃圾邮件识别和过滤、用户特征建模;Amazon.com(亚马逊)的协同过滤推荐系统;Facebook的Web日志分析;Twitter、LinkedIn的人脉寻找系统;淘宝商品推荐系统、淘宝搜索中的自定义筛选功能......这些应用都使用到Hadoop及其相关技术。

“Hadoop能做什么?” ,概括如下:

1、搜索引擎(Doug Cutting  设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。

2、大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。

3、大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。

4、科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。

版权声明:本文为CSDN博主「陆勤」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/wangloveall/article/details/20029357

所以呢,通俗来讲,hadoop就是一种分布式存储、处理大数据的平台、框架。在数据量极大丰富的今天,能够高效的分析数据,是一种手段,更是一种智慧。

猜你喜欢

转载自blog.csdn.net/a_cherry_blossoms/article/details/114835077