大数据——初识hadoop

Hadoop项目主要包括以下四个模块

  • Hadoop Common:
            为其他Hadoop模块提供基础设施。

  • Hadoop HDFS:
            一个高可靠、高吞吐量的分布式文件系统

  • Hadoop MapReduce:
           一个分布式的离线并行计算框架

  • Hadoop YARN:
           一个新的MapReduce框架,任务调度与资源管理

Hadoop2.x概述

  1. HDFS系统架构图
    主从节点来解决这种问题;
           *NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在DataNode等;====》NameNode的元数据中的一部分存放在内存中的,在进程当中,另一部分存放在本地磁盘(fsimage:镜像文件和edits:编辑日志)
           *DataNode在本地文件系统存储文件块数据,以及块的校验和;
           *Secondary NameNode 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
    HDFS文件系统架构图
  2. Yarn架构图
           *ResourceManager:处理客户端请求;启动/监控ApplicationMaster;监控NodeManager;资源分配与调度
           *ApplicationMaster:数据切分;为应用程序申请资源,并分配给内部任务;任务监控与容错
           *NodeManager:单个节点上的资源管理;处理来自ResourceManager的命令;处理来自ApplicationMaster的命令
           *Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息
    yarn架构图
  3. 离线计算框架MapReduce
           *MapReduce on Yarn
    在这里插入图片描述
  4. 通过实际需求介绍Hadoop的生态系统
           *数据库的需求:用的比较多的框架Sqoop(SQL to Hadoop),关系型的数据库把数据存储到HDFS上。
           *日志文件的收集:Flume
           *任务的管理与调度:Oozie
           *MapReduce不是那么好些,门口比较高,又有了Hive。
           *整个集群资源的管理界面:Clodera Manager
           *协作框架:Zookeeper
  5. Hadoop2.x环境的搭建所需要的软件
所需软件 下载链接
虚拟机VMware 虚拟机vmware(附带注册码)
Linux镜像文件 CentOS32位镜像文件
jdk1.8版本 jdk官方网址请选择32位Linux版本
hadoop2.5.0 hadoop官网下载
FileZilla Client Linux远程传输工具
XShell 远程链接Linux工具

猜你喜欢

转载自blog.csdn.net/qq_40395687/article/details/84940308