分析Spark源码第二步——内核架构分析 - 代码天地

分析Spark源码第二步——内核架构分析

其他 2018-09-16 12:40:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_27667379/article/details/80591765

这章是具体流程

使用standalone提交模式，将我们编写好的Application打成jar包上传到某Spark节点上，通过spark-submit提交Application，该命令运行后在该节点会通过反射的方式，创建和构造一个DriverActor进程，就是我们经常说的Driver，该进程负责执行我们的Application，也就是我们编写的代码。
就像我们编写代码一样，Driver进程首先构造SparkConf，接着创建SparkContext对象，SparkContext在初始化的时候，会构造DAGSchedule和TaskScheduler。
TaskSchedule接着通过启动自己的后台进程，去连接Master，向Master注册Application。
Master收到Application注册的请求后，会使用自己的资源调度算法，为该Application分配运行资源，分配完成后就通知Spark集群上相应的Worker节点，为这个Application启动分配数量的Executor。
Executor启动之后会自己反向注册到TaskScheduler上去。
当所有Executor完成反向注册后，DriverActor继续执行应用程序中的代码，每执行到一个action操作，就会创建一个Job，Driver会将Job提交给DAGSchedule，DAGSchedule会将job基于Stage划分算法划分为多个stage，然后每个stage作为TaskSets提交到TaskSchedule，随后TaskSchedule会将TaskSet里每一个Task（task分配算法）提交到Executor上执行。（task分配算法）
Executor每接收到一个task，都会用TaskRunner（将我们编写的代码，也就是要执行的算子以及函数，拷贝，反序列化，然后执行task）来封装task，然后从线程池（每一个Executor都有一个线程池）里取出一个线程，执行这个task。
Task有两种，shuffleMapTask和ResultTask，每个Job中只有最后一个stage是ResultTask。
所以最后整个spark应用程序的执行，就是stage分批次作为taskset提交到Executor执行，每个task针对RDD的一个partition，执行我们定义的算子和函数，以此类推，直到所有操作执行结束为止。

猜你喜欢

转载自blog.csdn.net/qq_27667379/article/details/80591765

分析Spark源码第二步——内核架构分析

移植uboot第二步：分析uboot

架构的第二步——技术

20200207_Dontla_MBTI第二步基本分析报告（(ISTJ)）

hadoop开发第二步

第二步如何交易

实战第二步：如何做一份有针对性的竞品分析

架构的第二步——技术之数据库设计

vue学习第二步——目录结构

第二步6月9日

第二步：Vue 项目中使用

vector第二步修炼之道

symfony学习笔记--第二步，创建Bundle

第二步：添加sprite精灵

cmake 第二步：添加库(翻译)

【Maven】第二步：配置本地仓库

【SpringBoot】第二步：在myeclipse新建SpringBoot项目

物联网第二步： Tornado-基础

Unity Ruby's Adventure 第二步

第二步_安装samba服务器

小白入坑第二步

Avalondock 第二步创建文档面板

Flutter入门第二步-路由管理

第二步，Vue Router安装和使用

第二步-创建git版本库

Nest.js 第二步完善接口

第二步：登录后台系统添加邮箱

【自制框架，第二步_01】

Spark入门三部曲之第二步Spark开发环境搭建

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)