大数据与Hadoop之间,主要有什么关系,Hadoop有什么特点?

大数据技术正在向各行各业渗透。Hadoop作为数据分布式处理系统的典型代表,已经成为该领域事实的标准。但Hadoop并不等于大数据,它只是一个成功的处理离线数据的分布式系统,大数据领域还存在众多其他类型的处理系统。

伴随大数据技术的普及,Hadoop因其开源的特点和卓越的性能成为一时的新宠,甚至有人认为大数据就是Hadoop,其实这是一个误区。Hadoop只是处理离线数据的分布式存储和处理系统。除了Hadoop,还有用于处理流数据的Storm、处理关系型数据的Oracle、处理实时机器数据的Splunk……目前主流的大数据系统很多,Hadoop只是其中的代表。

2.1Hadoop的核心模块

HadoopCommon:Hadoop的公用应用模块,是整个Hadoop项目的核心,为Hadoop各子项目提供各种工具,如配置文件和日志操作等,其他Hadoop子项目都是在此基础上发展起来的。

HadoopDistributedFileSystem(HDFS):Hadoop分布式文件系统,提供高吞吐量应用程序数据访问,并具有高容错性。对外部客户机而言,HDFS就像一个传统的分级文件系统,可以进行增删改查或重命名等常规文件操作。但实际上HDFS中的文件被分成块,然后复制到多个计算机中,这与传统的RAID架构大不相同。HDFS特别适合需要一次写入、多次读取的超大规模数据集的应用程序。

HadoopYARN:一个作业调度和群集资源管理框架。

HadoopMapReduce:基于YARN的大型数据分布式并行编程模式和程序执行框架,是Google的MapReduce的开源实现。它帮助用户编写处理大型数据集的并行运行程序。MapReduce隐藏了分布式并行编程的底层细节,开发人员只需编写业务逻辑代码,而无需考虑程序并行执行的细节,从而大大提高了开发效率。

Apache的其他与Hadoop相关的项目还有很多。

2.2Hadoop的特点

作为分布式计算领域的典型代表,Hadoop比其他分布式框架有更多的优点。

可扩展性:Hadoop可以在不停止集群服务的情况下,在可用的计算机集簇间分配数据并完成计算,这些集簇可以方便地扩展到数千节点中。

简单性:Hadoop实现了简单并行编程模式,用户不需要了解分布式存储和计算的底层细节即可编写和运行分布式应用,在集群上处理大规模数据集,所以使用Hadoop的用户可以轻松搭建自己的分布式平台。

高效性:Hadoop的分布式文件系统具有高效的数据交互设计,可以通过并行处理加快处理速度。Hadoop还是可伸缩的,能够在节点间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

可靠性:Hadoop的分布式文件系统将数据分块储存,每个数据块在集群节点上依据一定的策略冗余储存,确保能够针对失败的节点重新分布处理,从而保证了数据的可靠性。

成本低:依赖于廉价服务器,它的成本比较低,任何人都可以使用。

在大数据时代,Hadoop以其优越的性能受到业界的广泛关注,已经成为大数据处理领域事实上的标准。如今,Hadoop在诸多领域大显身手。随着开源社区和国际众多国际技术厂商对这一开源技术的积极支持与持续的大量投入,相信不久的将来,Hadoop技术会被拓展到更多的应用领域。
  人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
什么是Spark,与Hadoop相比,主要有什么不同?
http://www.duozhishidai.com/article-9778-1.html
Hadoop目前在国内外的现状介绍
http://www.duozhishidai.com/article-9754-1.html
什么是Hadoop,如何学习Hadoop
http://www.duozhishidai.com/article-8236-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台

猜你喜欢

转载自blog.csdn.net/weixin_43346716/article/details/89288471