Hadoop体系简介

其他 2021-02-09 04:40

0 阅读

一、Hadoop简介

Hadoop的初衷是采用大量的廉价机器，组成一个集群，完成大数据的存储和计算。

1.1 Hadoop中的组件

1.1.1 Hadoop1.x组成

HDFS：负责数据的存储
Common：HDFS和MapReduce共有的常用的工具包的模块
MapReduce：负责计算，负责计算资源的申请的调度

1.1.2 完成大数据的计算

写程序，程序需要符合计算框架的要求
- java → main → 运行
- MapReduce（编程模型）→ Map → Reducer
运行程序，申请计算资源（cpu+内存，磁盘IO，网络IO）
- java → JVM → OS → 申请计算资源
- 1.0：MapReduce（编程模型）→ JobTracker → JVM → 申请计算资源
- 2.0：MapReduce（编程模型）→ jar →运行时，将jar包中的任务，提交给Yarn，和Yarn进行通信 → 由Yarn中的组件 → JVM → 申请计算资源

1.1.3 1.x和2.x的区别

将资源调度和管理进行分离，由同一的资源调度平台Yarn进行大数据计算资源的调度，这也提升了Hadoop的通用性，Hadoop搭建的集群中的计算资源，不仅可以运行Hadoop中MapReduce程序，也可以运行其他的计算框架的程序。

1.1.4 Hadoop1.x的组成

HDFS（框架）：负责大数据的存储
Yarn：负责大数据的资源调度
MapReduce：使用Hadoop制定的编程要求，编写程序，完成大数据的计算

二、HDFS简介

负责大数据的存储

2.1 HDFS进程类型

2.1.1 必须进程

NameNode（1个）：
- 负责文件，名称等元数据（属性信息）的存储，文件名、大小、文件切分的块数，创建和修改时间等
- 职责：接收客户端的请求，向DataNode分配任务
DataNode（N个）：
- 负责文件中数据的存储
- 职责：负责接受NameNode分配的任务，负责数据块（block）的管理（读、写）

2.1.2 可选进程

SecondaryNameNode（N个）：负责辅助NameNode工作

三、MapReduce简介

3.1 MapReduce过程

MapReduce（编程规范）：程序中由Mapper（简单处理）和Reducer（合并）
遵循MapReduce的编程规范，编写的程序，打包后，称为一个Job（任务）
Job需要提交到YARN上，向YARN申请计算资源，运行Job中的Task（进程）
Job会先创建一个MapReduceAppMaster进程，由MapReduceAppMaster向YARN申请资源
MapReduceAppMaster负责监控Job中各个Task运行情况，进行容错管理

四、YARN

YARN负责集群中所有计算资源的管理和调度

4.1 常见的进程

ResourceManager（1个）：负责整个集群所有资源的管理
- 职责：负责接受客户端的提交Job的请求，负责向NodeManager分配任务，负责接受NodeManager上报的信息
NodeManager（N个）：负责单台计算机所有资源的管理
- 职责：负责和ResourceManager进行通信，上报本机中可用资源，负责领取ResourceManager分配的任务，负责为Job中的每个Task分配计算资源

4.2 相关概念

Container（容器）：当NodeManager为Job的某个Task分配了2个CPU和2G内存的计算资源，为了防止当前Task在使用这些资源期间，被其他的Task抢占资源，将计算资源封装到一个Container中，在Container中的资源，会被暂时隔离，无法被其他进程所抢占，当Task运行结束后，当前的Container中的资源会被释放，允许其他Task来使用。