Hadoop入门简要学习指南(1)

Hadoop入门简要学习指南(1)

一、 什么是Hadoop

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.(引自官网)

Hadoop 是一个开源的,可靠的,可扩展的分布式计算软件。

主要通过以下几个部分来阐述hadoop的学习思路及历程:环境搭建(伪分布式环境)、核心组件、原理解析、Demo示例。

二、Hadoop伪分布式环境搭建

应用案例:见另外一篇博客(https://blog.csdn.net/qq_29269907/article/details/81221430)

三、Hadoop核心组件

Hadoop三个核心组件主要包括HDFS,YARN,MapReduce;

HDFS

HDFS 是一个高容错,可扩展,低成本的分布式文件系统。

DataNode的个数不够支持数据存储时,可以自由的去增加DataNode的个数。

横向扩容比纵向扩容成本低。

HDFS 是把一个文件切分为n个block,然后每个block进行复制。例如file1(300M)切分三个block(默认每个block是128M),分别是block1,block2,block3.然后每个datanode可以存储多个block,b1/b2/b3分别存储到三个不同的datanode中,这样就可以体现出容错性。
这里写图片描述

漫画详解HDFS操作文件系统:

写入数据:

avatar

avatar

avatar

avatar

读取数据:

avatar

容错:

avatar
avatar
avatar
avatar

备份规则:
avatar
结束语:
avatar

猜你喜欢

转载自blog.csdn.net/qq_29269907/article/details/82686946
今日推荐