Hadoop介绍
Hadoop是Apache旗下的一个用Java语言实现的开源软件框架,是一个开发和于宁处理大规模数据的软件平台.允许使用简单的编程模型在大量计算机集群上对大数据集进行分布式处理.
上图显示了一个Hadoop从1.0到2.0的一个变迁.现在Hadoop3.0也有的,但是我现在是以2.0为基础学习的.
狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:
HDFS:(分布式文件系统)--解决海量数据存储
YARN:(作业调度和集群资源管理的框架)--解决资源任务调度
MapReduce:(分布式运算编程框架)--解决海量数据计算
从上图可以发现,在Hadoop1.0中MapReduce除了做数据的计算还有另外一个任务,还做集群的资源管理(例如:一个程序在运行的时候,它肯定需要内存、磁盘空间等等,那么这些跟程序运行相关的硬件资源可以称为集群的资源)。所以可以想象,Hadoop1.0中MapReduce的任务太繁重了。因此在Hadoop2.0中,把MapReduce中专门做集群资源管理任务的这一部分,专门提取出来,交给了YARN。另外YARN除了做集群资源管理,还兼顾着任务调度(提交的程序都想使用集群资源,按照什么样的规则使用这些资源呢?是按照优先级还是按照先来后到等等呢?这样就存在一个所谓计算任务的调度)。 这样MapReduce就专心做数据处理了。
广义上来说,Hadoop通常是指一个更广泛的概念------Hadoop生态圈。
当下的Hadoop已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非Apache主管的项目,这些项目对Hadoop是很好的补充。
HIVE:基于Hadoop的分布式数据仓库,提供基于SQL的查询数据操作
HBASE:基于Hadoop的分部式海量数据库
ZOOKEEPER:分布式协调服务基础组件
......
Hadoop的发展史
Hadoop是 Apache Lucene创始人 Doug Cutting创建的。最早起源于 Nutch,它是 Lucene的子项目。 Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。2003年 Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
2004年 Google发表论文向全世界介绍了谷歌版的 MapReduce系统。
同时期, Nutch的开发人员完成了相应的开源实现HDFS和 MAPREDUCE,并从Nutch中剥离成为独立项目 HADOOP,到2008年1月, HADOOP成为 Apache顶级项目,迎来了它的快速发展期。2006年 Google发表了论文是关于 Bigtable的,这促使了后来的 Hbase的发展
因此, Hadoop及其生态圈的发展离不开 Google的贡献。
Hadoop的特性优点
扩容能力( Scalable): Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。
成本低( Economical): Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低
高效率( Efficient):通过并发数据, Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
可靠性( Reliable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署( redeploy)计算任务。所以 Hadoop的按位存储和处理数据的能力值得人们信赖。
小结一点:Hadoop并不会跟某种具体的行业或者某个具体的行业挂钩,它只是一种用来做海量数据分析处理的工具。
集群介绍
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群负责海量数据的存储,集群中的角色主要有:
NameNode(老大)、 DataNode(小弟)、 SecondaryNameNode(老大的秘书)
YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:
ResourceManager(主角色)、NodeManager(从角色)
那 mapreduce是什么呢?它其实是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。
Hadoop集群的搭建
第一步:(这一步骤基本都是虚拟机的创建,以前的微博都有讲述,这里简单说明一下)
服务器的准备工作
我使用的是VMware Workstation pro虚拟机创建虚拟服务器来搭建Hadoop集群,使用的是如下的版本:
VMware Workstation Pro 12.0
Centos 6.7 64bit
网络环境的准备
采用NAT方式联网
可以通过编辑/etc/sysconfig/network-scripts/ifcfg-eth0这个配置文件来进行配置
注意 BOOTPROTO GATEWAY NETMASK等,可以参见前面的博客
服务器系统设置
同步时间
date -s "xxxx-xx-xx xx:xx:xx"类似这种格式---这种是手动配置
也可以网络同步时间
yum install ntpdate
ntpdate cn.pool.ntp.org
设置主机名
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME="你的主机名"
配置IP、主机名映射
vim /etc/hosts
192.168.245.10 note-1 这个是主节点,下面两个是从节点
192.168.245.11 note-2
192.168.245.12 note-3 这里的note-x你可以取你习惯的任意的名字(例如master,slave1,slave2这样),我只是用这个来作为代号
配置ssh免密登陆
ssh是一个非对称的单向性的,一般配置主节点到从节点的免密登陆
#生成ssh免登陆密钥
ssh-keygen -t rsa (四个回车)
执行完这个命令后,会生成id_rsa(私钥) id_rsa.pub(公钥)
将公钥拷贝到要免密登陆的目标机器上
ssh-copy-id node-2(这个是对方的主机名)
配置防火墙
#关闭防火墙
service iptables stop
#关闭防火墙开机启动(也就是永久关闭)
chkconfig iptables off
第二步:JDK环境安装
#卸载原有的jdk(如果有的话,比如openjdk)
rpm -qa | grep java --- 查找原来JDK相关的安装
rpm -e --nodeps xxxxxxxxxxxxxxx ---卸载掉
#上传jdk安装包
jdk-8u65-linux-x64. tar. gz---我这里用的是这个,上传一般放在了/usr/local/src 这个文件下面
#解压安装包
tar zxvf jdk-8u65-linux-x64. tar. gz
#配置环境变量/etc/ profile
export JAVA_HOME=/usr/local/src/jdk1.8.0_65export PATH=$PATH: $JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt. jar: $JAVA_HOME/lib/tools. jar
这里注意一下,这里在/etc/profile这个文件中配置,是所有用户都会生效.当然也可以配置~/.bashrc这个文件,这个文件的优先级要高于/etc/profile文件,简单说就是在~/.bashrc中配置的与/etc/profile文件相同的内容,会使用~/.bashrc的.值得注意的是,~/.bashrc是针对单一用户而言的.不过我们学习,配置哪个都可以
#刷新配置
source /etc/profile
第三步:Hadoop的安装,安装包目录结构以及配置文件的修改(重点)
上传并解压 hadoop-2.7.4-with- centos-6.7.tar.gz 到/usr/local/src下
bin: Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用 Hadoop.(这个目录我们使用的比较少,我们大部分使用sbin目录中的内容,下面介绍)
etc: Hadoop配置文件所在的目录,包括core-site.Xml、hdfs-site.xml、mapred-site.xml等从 Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。
include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写 MapReduce程序。
lib:该目录包含了 Hadoop对外提供的编程动态库和静态库,与 include目录中的头文件结合使用。
libexec:各个服务对用的 shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JWM参数)等基本信息。
sbin: Hadoop管理脚本所在目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。
share: Hadoop各个模块编译后的jar包所在的目录。
配置文件的修改(仔细认真--重点)
可以这么说:Hadoop安装成功与否就是配置文件修改决定的,这里要仔细.Hadoop安装主要就是配置文件的修改,一般在主节点进行修改,完毕后scp下发给其他各个从节点机器。
第一个:hadoop-env.sh
文件中设置的是 Hadoop运行时需要的环境变量。 JAVA_HOME是必须设置的,即使我们当前的系统中设置了 JAVA_HOME,它也是不认识的,因为 Hadoop即使是在本机上执行,它也是把当前的执行环境当成远程服务器。
vim hadoop-env.sh
export JAVA HOME=/usr/local/src/jdk1.8.0_65(这里也可以理解为,不管你在系统环境是否配置了JAVA_HOME,至少在这里导入了JAVA_HOME,确保这个程序在使用时可以找到正确的JDK)
第二个:core-site.xml(核心配置)
vim core-site.xml
<configuration>
<!--指定Hadoop所使用的文件系统,默认用的是本地的文件系统-->
<property>
<name>fs.default.name</name> (通过解读hdfs://就可以知道使用的是HDFS文件系统,这里的ip是主节点)
<value>hdfs://192.168.245.10:9000</value>
</property>
<!--指定Hadoop运行时产生文件的存储目录,默是/tmp/hadoop-${user.name}-->
<name>hadoop.tmp.dir</name>
<value>/usr/local/src/hadoop-2.7.4/tmp</value>
</property>
</configuration>
第三个:hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<name>dfs.namenode.secondary.http-address</name>
<value>node-2:50090</value>
</property>
</configuration>
第四个:mapred-site.xml
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
第五个:yarn-site.xml(配置和yarn相关的东西)
<name>yarn.resourcemanager.hostname</name>
<value>node-1(也可以写ip)</value>
</property>
<name>yarn.nodemanager.aux-services</name>
<value> mapreduce_shuffle</value>
</property>
第六个:slaves文件,里面写上从节点的名称
vim slaves
这里面一行写一个节点名称(node-x),可以把所有节点都写上,也可以不写主节点--目前来看区别就是启动集群看主节点的进程有无Datanode节点.
第七个:将Hadoop添加到环境变量
scp -r /usr/local/src/hadoop-2.7.4/ root@node-2:/usr/local/src/
scp -r /usr/local/src/hadoop-2.7.4/ root@node-3:/usr/local/src/
scp -r /etc/profile root@node-2:/etc/
scp -r /etc/profile root@node-3:/etc/
记得从节点上也要 source /etc/profile
关于配置文件的的注意事项:
在Hadoop官网上有上图的示例,这里的配置文件中间都是default,这些个文件和我们配置的那些中间是site的配置文件是什么关系呢?我们点开第一个文件看一下,是下图
xxxx-default.xml 这里面配置的是Hadoop默认的配置选项,如果用户没有更改,那么这里的选项内容就会生效
xxxx-site.xml 这里是用户配置的自定义的配置选项
两者中,后者的优先级要大于前者,如果后者有配置的话,就会覆盖前者的默认配置
这里我们还要注意红色框中内容,这里是过时的属性,点开它显示如下
这里只是一部分,所以说每个版本的配置文件会有变化,假如以后我们发现配置了配置文件没有生效的话,我们可以联想到这里,是不是我们配置的内容是过时的.
第四步:Hadoop集群的启动和初体验
1.启动方式
要启动 Hadoop集群,需要启动HDFS和YARN两个集群
注意:首次启动HDFS时,必须对其进行格式化操作。本质上是一些清理和准备工作,因为此时的HDFS在物理上还是不存在的。
hdfs namenode - format或者 hadoop namenode -format
关于hdfs的格式化:
首次启动需要进行格式化
格式化本质是进行文件系统的初始化操作创建一些自己所需要的文件
格式化之后 集群启动成功 后续再也不要进行格式化
格式化的操作在hdfs集群的主角色( namenode)所在的机器上操作
1.1.单节点逐个启动
在主节点上使用以下命令启动 HDFS NameNode:
hadoop-daemon.sh start namenode
在每个从节点上使用以下命令启动 HDFS DataNode:
hadoop-daemon.sh start datanode
在主节点上使用以下命令启动 Yarn ResourceManager:
yarn-daemon.sh start resourcemanager
在每个从节点上使用以下命令启动 Yarn nodemanager:
yarn-daemon.sh start nodemanager
以上脚本位于$HADOOP_PREFIX(hadoop的安装目录)/sbin下,如果想要停止某个节点上的某个角色,只需要把命令start改为stop
1.2.脚本一键启动
如果配置了etc/ hadoop/ slaves和ssh免密登录,则可以使用程序脚本启动所有 Hadoop两个集群的相关进程,在主节点所设定的机器上执行。
hdfs: $HADOOP_PREFIX/sbin/start-dfs sh
yarn: $HADOOP_PREFIX/sbin/start-yarn sh
停止集群:stop-dfs.sh、stop-yarn.sh