Spark中任务划分

RDD任务切分中间分为:Application、Job、Stage和Task

1)Application:初始化一个SparkContext即生成一个Application;

2)Job:一个Action算子就会生成一个Job

3)Stage:根据RDD之间的依赖关系的不同将Job划分成不同的Stage,遇到一个宽依赖则划分一个Stage;

对于宽依赖,由于有Shuffle的存在,只能在parent RDD处理完成后,才能开始接下来的计算,因此宽依赖是划分Stage的依据。

4)TaskStage是一个TaskSet,将Stage划分的结果发送到不同的Executor执行即为一个Task

猜你喜欢

转载自blog.csdn.net/qq_43193797/article/details/89258477