Hadoop项目主要包括以下四个模块
-
Hadoop Common:
为其他Hadoop模块提供基础设施。 -
Hadoop HDFS:
一个高可靠、高吞吐量的分布式文件系统 -
Hadoop MapReduce:
一个分布式的离线并行计算框架 -
Hadoop YARN:
一个新的MapReduce框架,任务调度与资源管理
Hadoop2.x概述
- HDFS系统架构图
主从节点来解决这种问题;
*NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在DataNode等;====》NameNode的元数据中的一部分存放在内存中的,在进程当中,另一部分存放在本地磁盘(fsimage:镜像文件和edits:编辑日志)
*DataNode在本地文件系统存储文件块数据,以及块的校验和;
*Secondary NameNode 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
- Yarn架构图
*ResourceManager:处理客户端请求;启动/监控ApplicationMaster;监控NodeManager;资源分配与调度
*ApplicationMaster:数据切分;为应用程序申请资源,并分配给内部任务;任务监控与容错
*NodeManager:单个节点上的资源管理;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令
*Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息
- 离线计算框架MapReduce
*MapReduce on Yarn
- 通过实际需求介绍Hadoop的生态系统
*数据库的需求:用的比较多的框架Sqoop(SQL to Hadoop),关系型的数据库把数据存储到HDFS上。
*日志文件的收集:Flume
*任务的管理与调度:Oozie
*MapReduce不是那么好些,门口比较高,又有了Hive。
*整个集群资源的管理界面:Clodera Manager
*协作框架:Zookeeper - Hadoop2.x环境的搭建所需要的软件
所需软件 | 下载链接 |
---|---|
虚拟机VMware | 虚拟机vmware(附带注册码) |
Linux镜像文件 | CentOS32位镜像文件 |
jdk1.8版本 | jdk官方网址请选择32位Linux版本 |
hadoop2.5.0 | hadoop官网下载 |
FileZilla Client | Linux远程传输工具 |
XShell | 远程链接Linux工具 |