初识Hadoop

Hadoop核心：
Hadoop的核心就是HDFS和MapReduce：
HDFS：分布式文件系统
特点：大数据文件：适合大数据文件的存储。
      文件分块存储：HDFS会将一大块数据分别存储到不同的计算机上，这样有益于在同时读取多个主机取不同区块的文件。
      廉价硬件：HDFS可以应用在普通的PC上，这种机制能够公司用几十台廉价的计算机就可以撑起一个大的数据集群。
      硬件故障：HDFS认为所有的计算机都会出现问题，为了防止某个主机失效读取不到该主机的快文件，他将一个文件块副本分配到其他的主机上
                ，如果其中一台主机失效也可以迅速找到另一块副本取文件。
      流式数据访问：特点就是，像流水一样，不是一次过来而是一点一点“流”过来。而你处理流式数据也是一点一点处理。
                    如果是全部收到数据以后再处理，那么延迟会很大，而且在很多场合会消耗大量内存。

HDFS关键元素：
block:将一个文件进行分块，通常是64M。
Namecode:保存文件的系统的目录信息，文件信息及分块信息，这是由一台主机专门保存，当然这台主机出错，Namecode即失效了。在Hadoop2之后，在主机Namecode失效的时候就会启动备用主机运行Namecode。
DataNode：分布在廉价的计算机上用于存储block块文件。

MapReduce：可以从海量数据中提取分析我们需要的内容就是MapReduce做的事了。
一个银行有上亿的用户，想要从中得到存钱最多的用户？
MapReduce解决办法：首先数字是分布在不同的块中，以某几个快为一个Map，计算Map中的最大值，然后将每个Map中的最大值做Reduce操作，reduce再取最大值给用户。

猜你喜欢