【大数据】什么是hadoop

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/cheidou123/article/details/83721969

一、hadoop简介

Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。

二、hadoop架构设计

⑴hadoopcommon hadoop基础设施模块

⑵hdfs 分布式文件系统

⑶mapreduce 实现在很多机器上分布式并行运算

⑷yarn 帮用户调度大量的mapreduce程序,并合理分配运算资源

三、hadoop的优缺点

1.优点

⑴高可靠性 具有按位存储和处理数据能力
⑵高扩展性 过可用的计算机集群分配数据,这些集群可以方便地扩展到数以千计的节点中
⑶高容错性 能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配
⑷高效性 能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性。
⑸低成本 可以运行在普通商用机上

2.缺点

⑴不能做到低延迟 没有针对低延迟数据访问做一些优化,如果要求低延迟, 可以看看Hbase。
⑵不适合大量的小文件存储 由于NameNode把文件的MetaData存储在内存中,所以大量的小文件会产生大量的MetaData。这样的话百万级别的文件数目还是可行的,再多的话就有问题了。
⑶不适合多用户写入文件,修改文件 Hadoop现在还不支持多人写入,任意修改的功能。也就是说每次写入都会添加在文件末尾。

四、hadoop名词以及他们之间的关系

这里先简单说说,具体以后仔细说

1.hbase hive hdfs hue

HDFS是一种文件格式,像FAT32,NTFS之类的,是底层的;
HBase是数据库,可以建在HDFS上,也可以不在这上面,不过按照设计,是推荐运行在HDFS上的;
Hive 基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能
Hue 通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。

2.spark mapreduce

Mapreduce和spark是数据处理层两大核心,Spark出现慢慢替代Mapreduce.

3.yarn

是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

猜你喜欢

转载自blog.csdn.net/cheidou123/article/details/83721969