【大数据】什么是hadoop

一、hadoop简介

Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。

二、hadoop架构设计

⑴hadoopcommon hadoop基础设施模块

⑵hdfs 分布式文件系统

⑶mapreduce 实现在很多机器上分布式并行运算

⑷yarn 帮用户调度大量的mapreduce程序,并合理分配运算资源

三、hadoop的优缺点

1.优点

⑴高可靠性具有按位存储和处理数据能力

⑵高扩展性过可用的计算机集群分配数据，这些集群可以方便地扩展到数以千计的节点中

⑶高容错性能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配

⑷高效性能够在节点之间进行动态地移动数据，并保证各个节点的动态平衡，处理速度非常快，具有高效性。

⑸低成本可以运行在普通商用机上

2.缺点

⑴不能做到低延迟没有针对低延迟数据访问做一些优化，如果要求低延迟，可以看看Hbase。

⑵不适合大量的小文件存储由于NameNode把文件的MetaData存储在内存中，所以大量的小文件会产生大量的MetaData。这样的话百万级别的文件数目还是可行的，再多的话就有问题了。

⑶不适合多用户写入文件，修改文件 Hadoop现在还不支持多人写入，任意修改的功能。也就是说每次写入都会添加在文件末尾。

四、hadoop名词以及他们之间的关系

这里先简单说说，具体以后仔细说

1.hbase hive hdfs hue

HDFS是一种文件格式，像FAT32，NTFS之类的，是底层的；
HBase是数据库，可以建在HDFS上，也可以不在这上面，不过按照设计，是推荐运行在HDFS上的;
Hive 基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能
Hue 通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语句，浏览HBase数据库等等。

2.spark mapreduce

Mapreduce和spark是数据处理层两大核心,Spark出现慢慢替代Mapreduce.

3.yarn

是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。