Hadoop系列——Hadoop简介

一、什么是Hadoop

Hadoop是一个对大量数据进行分布式处理的软件框架。以一种高效、可靠、可伸缩的方式进行数据处理。主要包括三个部份：Hdfs，MapReduce，Yarn。广义上，Hadoop是指一个生态圈，包含如HBase，Hive，Zookeeper，Spark，Kafka，Flume等软件

二、什么是Hdfs

HDFS全称：Hadop Distribute FileSystem
以流式数据访问模式来存储超大文件，运行在硬件集群上的文件系统。
HDFS的三种节点：NameNode，SecondaryNameNode，DataNode。
①NameNode：HDFS的守护进程，用来管理文件系统的命名空间，维护者整个文件系统树，以及整棵树内所有的文件和目录，即元数据。同时它还管理着文件的副本配置策略，数据块的映射信息，处理客户端的读写请求。

②DataNode：NameNode下达命令，DataNode执行命令。DataNode主要的任务是存储实际的数据块，执行数据块的读/写操作。

③SecondaryNameNode：不是NameNode的热备份，不能用来代替NameNode工作，他的主要任务是帮助NameNode合并Fsimage和Edits，并推送给NameNode；当NameNode宕机时，可以通过SecondaryNameNode还原NameNode工作的信息。

④Client客户端：文件的切分，与NameNode/DataNode交互，对存储的数据进行一些更改等。

三、什么是MapReduce

①MapReduce是一个分布式运算程序的编程框架，其核心功能是将用户边写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序。
②MapRecue的核心思想：
分布式计算分为两个部分：MapTask和ReduceTask；在MapTask阶段，各个MapTask任务独立运行，彼此之间不相互干扰；在ReduceTask阶段，其运行依赖MapTask阶段运行的结果，MapTask也是并发的，彼此之间互不相干；MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段。