【概述】Hadoop、Yarn、Spark基本…

  网上说得纷飞复杂的,其实要想简单用起来,Hadoop、Yarn、Spark的基本构架都很简单,如下图所示,都是一个总分的结构:

【概述】Hadoop、Yarn、Spark基本构架概念
  最初大数据的发明,就是为了解决一台机子做不了事情的问题。比如你一台机子硬盘大概2TB大小,但是我一个数据文件就有10TB大……那确实没办法。有人说,不是可以像数据库那样分开不同的库存储吗?但随着信息时代的发展,还真就有单个文件这么大的东西了。那只能把几个机子合并起来,虚拟出一个超大硬盘的机子,这就是分布式存储系统DFS(Distribution File System)。

  其实DFS并不罕见,大数据等一系列软件发明之前,我们不是有Raid系统吗?网上买硬盘,2个硬盘可以组个Raid 0,多个硬盘还可以组Raid 3、Raid 5等等。这些Raid功能不但增大了存储空间,还包含冗余计算,即使1台硬盘坏了,另几台还能恢复出原来的数据。DFS亦是如此。组Raid总需要有个东西对不同硬盘进行协调,同样,DFS里也得有东西对大家进行协调,这放在Hadoop上就是NameNode。

  由于HDFS系统是通过网络组起来的,因此协调也是通过服务器——客户端的形式来进行的。服务器就是NameNode,客户端就是DataNode,这么理解就简单易懂了。当存储东西的时候,我们总是通过一个hdfs://hdfsmain:9000的地址来对HDFS进行访问,这就是发送访问到NameNode。无论是上传、查询、删除、修改等任务,都是通过发送命令到NameNode,然后再通过NameNode将相应指令发送到各个DataNode进行执行的。

  所以无论是HDFS、YARN还是SPARK,它们都是类似这样的模式,提交一个任务到主节点,然后主节点再分配任务给分节点执行。那么HDFS、YARN、SPARK它们之间的区别又在哪里呢?

HDFS:拿来存储东西的
YARN:拿来分配任务的
SPARK:拿来做分布式计算的




猜你喜欢

转载自blog.csdn.net/u010770993/article/details/70312487