初探大数据之Hadoop简介

一、Hadoop的主要作用

Hadoop主要解决海量数据的存储和海量数据的分析计算。

二、Hadoop框架技术的组成

1、HDFS：

HDFS是一个文件系统，用来存储文件的，通过元数据来定位文件的位置和大小等；再者，HDFS是分布式的，有很多服务器联合起来实现其功能，集群中的服务器都有着各自的角色。HDFS的设计，适合一次写入，多次读出的场景，不支持文件的修改，是用来做数据分析的，并不适合用于网盘应用。

2、MapReduce：

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。

以上两句话是百度上的，官方的话就是显得抽象和高大上，读了之后跟没读过一样，我还是用我自己的话描述一下。

MapReduce是Hadoop技术体系中最核心的一个框架，它的作用是对数据先进行分析，在进行输出。例如，有一个写了很多英文单词的文本文件，需要统计出文件中每个单词的数量，此时，MapReduce就闪亮登场了。其实，这是Hadoop官网中自带的demo---wordcount。当然这是最浅最浅的理解了，它能做的事，远远不止于此。

3、YARN：

YARN是用于作业调度和集群资源管理的框架，它在Hadoop中，对集群的利用、资源统一管理和数据共享方面等，起着巨大的作用。

4、Common：

Common是一种工具，用于支持其他模块。

（有错误的地方，希望大牛们能够指出，小弟一定改正）

初探大数据之Hadoop简介

猜你喜欢