大数据（二）：入门Hadoop

一、什么是大数据，什么是Hadoop

大数据：指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多元化的信息资产。

数据存储单位：bit<Byte<KB<MB<GB<TB<PB<EB<ZB<YB<BB<NB<DB

大数据的特点：

Hadoop是一个由Apache基金会所开发的分布式系统基础框架，主要解决，海量数据的存储和海量数据的分析计算问题。

Hadoop的优势：

高可靠性：因为Hadoop假设计算元素和存储会垂涎故障，所以它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。

扫描二维码关注公众号，回复： 2967356 查看本文章
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度
高容错性：自动报错多副本数据，并且能够自动将失败的任务重新分配

二、Hadoop基本结构

Hadoop的组成：

HDFS架构概述：

YARN架构概述：

MapReduce架构概述：

三、大数据生态体系