你们要操作的话,最好先跟着“黑曼巴007”,我这边遇到的问题,你们可以参考一下。
挂个JDK,HADOOP百度云链接吧:
链接:https://pan.baidu.com/s/1LMNR40wlA50W-nnFH0dCtA
提取码:c24w
复制这段内容后打开百度网盘手机App,操作更方便哦
实验一 Apache Hadoop环境搭建
一、实验目的
1、通过实验了解Hadoop安装的基本过程;
2、通过实验掌握配置SSH的方法,掌握安装、配置Hadoop的方法,掌握启动、关闭Hadoop的命令。
二、实验内容
根据老师的要求:Hadoop安装。此篇实验报告基于互联网上CSDN博主“黑曼巴007”:https://blog.csdn.net/qq_35535690,接下来就是自己动手实践的整个过程,期间可能会遇到一些问题,但是我一定会尽力解决。所采用的设备和软件版本是:
Win10专业版64位;
Hadoop版本2.10.1;
JDK版本1.8;
- 安装JDK
JDK安装,环境变量的配置,
此时,JDK就已经安装好了(实际上在去年十一月份的时候,我就已经安装好了,搭配eclipse使用,但是后来由于用python比较多,所以eclipse太占内存就被我卸载了,但是JDK我没有卸载哦!)
打开CMD查看是否安装正确:
Beautiful,1.8的JDK安装成功。
- 下载、安装Hadoop
下载Hadoop到本地,准备安装:
使用网上别人配置过的bin和etc目录替换hadoop-2.10.1.tar.gz中的bin和etc目录,配置环境变量:
打开etc\hadoop\hadoop-env.cmd文件,修改set JAVA_HOME=为你自己的JAVA_HOME。
在根目录下添加data和tmp这两个文件夹:
再在data下添加datanode和namenode这两个文件夹:
修改hdfs-site.xml文件中的datanode和namenode
为(你新建的datanode和namenode):
再把
hadoop.dll从这里拷贝到C:\Windows\System32:
打开cmd测试的时候发现出问题了:
我就在想,是哪出错了,如果是这种报错方式的话,应该是环境变量设置错误了,于是回到环境变量处,一看,果然:
没拼写对,一边写的是HADOPP,一边写的是HADOOP,这怎么可能调用正确嘛,改过来后,重新CMD测试:
结果还是不对,然后可能是JAVA_HOME有问题,我就返回到博客中,发现在设置hadoop-env.cmd的时候,博客原文说到PROGRA~1代表Program Files,然后我发现我确实没用PROGRA~1代表Program Files,然后我改成:
CMD测试:
成功了。然后进入sbin目录,输入start-all:
出现了四个窗口,则说明启动hadoop集群成功:
输入jps –查看所有节点:
访问http://localhost:50070,即可访问Hadoop的web界面。
然后访问http://localhost:8088/的时候:
然后关了防火墙,不行;使用ip:8088模式访问,不行;修改yarn-site.xml,不行。。。我网上看,发现使用jps –的时候,只有四个节点,并没有resourceManager这个节点,然后我再看打开的四个窗口中的一个,发现和其它三个不一样:
而且这边还报错了,我网上一搜,别人说:
于是我照着这样做,将其复制到lib下:
再次启动、使用jps –查看节点:
再到浏览器中访问8088:
成功!!!YES!!!
- 关闭Hadoop
直接输入Stop-all:
则可关闭Hadoop。
三、总结与思考
摘要:本文从Hadoop的初衷、大数据时代背景、Hadoop的使用者来探讨“Hadoop能做什么”这个问题。
关键词:Hadoop 大数据
Hadoop是Doug Cutting 基于Google公司的GFS和MapReduce思想不断完善项目Nutch中脱胎而出的。
Hadoop是适合于大数据的分布式存储和处理平台,是一种开源的框架。
大数据时代已经到来,给我们的生活、工作、思维方式都带来变革。如何寻求大数据后面的价值,既是机遇又是挑战。不管是金融数据、还是电商数据、又还是社交数据、游戏数据.......这些数据的规模、结构、增长的速度都给传统数据存储和处理技术带来巨大考验。幸运的是,Hadoop的诞生和所构建成的生态系统给大数据的存储、处理和分析带来了曙光。
不管是国外的著名公司Google、Yahoo!、微软、亚马逊、 EBay、FaceBook、Twitter、LinkedIn等和初创公司Cloudera、Hortonworks等,又还是国内的著名公司中国移动、阿里巴巴、华为、腾讯、百度、网易、京东商城等,都在使用Hadoop及相关技术解决大规模化数据问题,以满足公司需求和创造商业价值。
例如:Yahoo! 的垃圾邮件识别和过滤、用户特征建模;Amazon.com(亚马逊)的协同过滤推荐系统;Facebook的Web日志分析;Twitter、LinkedIn的人脉寻找系统;淘宝商品推荐系统、淘宝搜索中的自定义筛选功能......这些应用都使用到Hadoop及其相关技术。
“Hadoop能做什么?” ,概括如下:
1、搜索引擎(Doug Cutting 设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。
2、大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。
3、大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。
4、科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。
版权声明:本文为CSDN博主「陆勤」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/wangloveall/article/details/20029357
所以呢,通俗来讲,hadoop就是一种分布式存储、处理大数据的平台、框架。在数据量极大丰富的今天,能够高效的分析数据,是一种手段,更是一种智慧。