【Hadoop技术】【Hadoop快速入门】

上一篇:【Hadoop技术】【大数据概论】

一、 Hadoop简介

1.Hadoop是一个开源的分布式计算平台

2.提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

处理什么问题:海量数据的存储和海量数据的分析计算问题。Hadoop的两大核心:HDFS和MapReduce

3.Hadoop的核心组件:
Common(基础组件):(工具包,RPC框架)JNDI和RPC。

HDFS(分布式文件系统):HDFS是以分布式进行存储的文件系统,主要负责集群数据的存储与读取。

MapReduce(分布式运算编程框架):Map对数据集上的独立元素进行指定的操作,生成键值对形式中间结果;Reduce则对之间结果中相同“键”的所有“值”进行规约,已得到最终结果。

YARN(运算资源调度系统):Hadoop2.X中的资源管理器。它可以为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
在这里插入图片描述

二、 Hadoop特性

Hadoop 是一个能够让用户轻松架构和使用的分布式计算的平台。用户可以轻松地在 Hadoop 发和运行处理海量数据的应用程序。
其优点主要有以下几个:  
(1)高可靠性:数据存储多个备份,集群设置在不同机器上,可以防止一个节点宕机造成集群损坏。当数据处理请求失败后,Hadoop 会自动重新部署计算任务。Hadoop 框架中有备份机制和校验模式,Hadoop 会对出现问题的部分进行修复,也可以通过设置快照的方式在集群出现问题时回到之前的一个时间点。  
(2)高扩展性:Hadoop 是在可用的计算机集群间分配数据并完成计算任务的。为集群添加新的节点并不复杂,所以集群可以很容易进行节点的扩展,扩大集群。  (3)高效性:Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。  
(4)高容错性:Hadoop 的分布式文件系统 HDFS 在存储文件时会在多个节点或多台机器上存储文件的备份副本,当读取该文档出错或者某一台机器宕机了,系统会调用其他节点上的备份文件,保证程序顺利运行。如果启动的任务失败,Hadoop 会重新运行该任务或启用其他任务来完成这个任务没有完成的部分。  
(5)低成本:Hadoop 是开源的,既不需要支付任何费用即可下载并安装使用,节省了软件购买的成本。  
(6)可构建在廉价的机器上:Hadoop 不要求机器的配置达到极高的水准,大部分普通商用服务器就可以满足要求,它通过提供多个副本和容错机制来提高集群的可靠性。  
(7)Hadoop 基本框架用 Java 语言编写:Hadoop 含有使用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。

下一篇:【Hadoop技术】【分布式系统概述】

猜你喜欢

转载自blog.csdn.net/qq_42893334/article/details/106591413
今日推荐