Hadoop的总体概述

Hadoop的总体概述

Hadoop起源于谷歌的集群系统,谷歌的数据中心使用廉价Linux PC机组成集群,在上面运行各种应用。

核心组件有3个:

第一个就是,GFS(GOOgle File Syetem),一个分布式文件系统,隐藏下层负载均衡冗余复制等细节,对上层程序提供一个统一的文件系统API接口。

第二个是MapReduce的,谷歌发现大多数分布式运算可以抽象为MapReduce的操作.MAP是把输入的输入分解成中间的键/值对,减少把键/值合成最终输出的输出。这两个函数由程序员提供给系统,下层设置把地图和减少操作分布在集群上运行,并把结果存储在GFS上。

第三个,BigTable的,一个大型的分布式数据库,这个数据库不是关系式的数据库,而是一个巨大的表格,用来存储结构化的数据。

Hadoop的是一个由阿帕奇基金会所开发的分布式系统基础架构。

而Hadoop的就是谷歌集群系统的一个开源实现,是一个项目总称。

Hadoop的特点

Hadoop的是一个能够让用户轻松和使用的分布式,计算平台用户可以轻松的在Hadoop的上开发和运行处理海量的应用程序,它主要有以下几个特点:

  1. 高可靠性:Hadoop的按位存储和处理数据的能力值得人们信赖。
  2. 高扩展性:Hadoop的是在可用的计算机集蔟间分配数据并完成计算任务,这些集蔟可以方便的扩展到数以千计的节点中。
  3. 高效性:Hadoop的能够自动保存数据的多个副本,并且能够自动将失败的任务重新任务。
  4. 低成本:与一体机,商用数据仓库以及QlikeView,YonghongZ套房等数据集市相比,Hadoop的是开源的,项目的软件成本因此会大大降低。

Hadoop的的组成部分

Hadoop的框架最核心的设计有部分组成,分别是分布式文件系统分布式计算框架

分布式文件系统哈夫斯为海量的数据体供了存储,主要用于大规模数据的分布式存储。

分布式计算框架的MapReduce为海量的数据提供了计算,它构建在分布式文件系统之上,对存储在分布式文件系统中的数据进行分步式计算。

扫描二维码关注公众号,回复: 4503807 查看本文章

猜你喜欢

转载自blog.csdn.net/abcdefghwelcome/article/details/84794127