spark核心编程,spark基本工作原理与RDD

Spark2.0笔记

spark核心编程,spark基本工作原理与RDD

1. Spark基本工作原理

2. RDD以及其特点

3. 什么是Spark开发

1.Spark基本工作原理
在这里插入图片描述

在这里插入图片描述
2. RDD以及其特点
在这里插入图片描述
在这里插入图片描述
3. 什么是Spark开发

spark核心编程:

第一:定义初始的RDD,要定义的第一个RDD是从哪里读取数据,hdfs,linux本地文件,程序中的集合。
第二:定义对RDD的计算操作,这个在Spark称之为算子,map、reduce、flatmap,groupbykey。比hadoop提供的Map Reduce强大。
第三:其实就是循环往复的过程。第一个计算提交了之后,数据可能就会到了新的一批节点上,也就是变成了一个新的RDD,然后对新的RDD定义新的计算操作。
第四:获得最终的数据,把结果保存起来。
核心开发、SQL查询、实时计算底层都是RDD和计算操作。

4.spark中RDD的partition:

我们要想对spark中RDD的分区进行一个简单的了解的话,就不免要先了解一下hdfs的前世今生。hdfs是一个分布式文件系统。

hdfs文件为分布式存储,每个文件都被切分为block(默认为128M)。为了达到容错的目的,他们还提供为每个block存放了N个副本(默认为3个)。当然,以上说的这些也可以根据实际的环境业务调整。

多副本除了可以达到容错的目的,也为计算时数据的本地性提供了便捷。当数据所在节点的计算资源不充足时,多副本机制可以不用迁移数据,直接在另一个副本所在节点计算即可。此时看到这里,肯定就有人会问了,那如果所有副本所在的节点计算资源都不充足那该怎么办?

问的很好,一般会有一个配置来设置一个等待时长来等待的,假设等待时长为三秒,如果超过三秒,还没有空闲资源,就会分配给别的副本所在节点计算的,如果再别的副本所在节点也需等待且超过了三秒。则就会启动数据迁移了(诸多因素影响,代价就比较大了)。

接下来我们就介绍RDD,RDD是什么?弹性分布式数据集。

弹性:并不是指他可以动态扩展,而是血统容错机制 (可以参考spark的容错机制)。

分布式:顾名思义,RDD会在多个节点上存储,就和hdfs的分布式道理是一样的。hdfs文件被切分为多个block存储在各个节点上,而RDD是被切分为多个partition。不同的partition可能在不同的节点上。(这句话是本文最为核心的,详情可以看下面,这里partition和block不单单是类比,还有他们之间的联系,partition可以看做block的一个上层结构,下层有HDFS的block组成)

再spark读取hdfs的场景下,spark把hdfs的block读到内存就会抽象为spark的partition。至于后续遇到shuffle的操作,RDD的partition可以根据Hash再次进行划分(一般pairRDD是使用key做Hash再取余来划分partition)。

再spark计算末尾,一般会把数据做持久化到hive,hbase,hdfs等等。我们就拿hdfs举例,将RDD持久化到hdfs上,RDD的每个partition就会存成一个文件,如果文件小于128M,就可以理解为一个partition对应hdfs的一个block。反之,如果大于128M,就会被且分为多个block,这样,一个partition就会对应多个block。

鉴于上述partition大于128M的情况,在做sparkStreaming增量数据累加时一定要记得调整RDD的分区数。假设,第一次保存RDD时10个partition,每个partition有140M。那么该RDD保存在hdfs上就会有20个block,下一批次重新读取hdfs上的这些数据,RDD的partition个数就会变为20个。再后续有类似union的操作,导致partition增加,但是程序有没有repartition或者进过shuffle的重新分区,这样就导致这部分数据的partition无限增加,这样一直下去肯定是会出问题的。所以,类似这样的情景,再程序开发结束一定要审查需不需要重新分区。

猜你喜欢

转载自blog.csdn.net/weixin_43212037/article/details/84281542