Spark Streaming源码阅读（1）SparkSession和SparkContext - 代码天地

Spark Streaming源码阅读（1）SparkSession和SparkContext

其他 2019-04-23 02:10:50 阅读次数: 0

(一)SparkSession:

SparkSession是Spark程序以及用来创建DataSet和DataFrame 的入口类, SparkSession实质上是用来合并这一系列的Context（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。

通用的getOrCreate()接口通过建造者模式(builder)进行对SparkSession的创建，首先会进行判断是否含有线程私有的SparkSession,没有的话再去寻找全局的SparkSession,若再没有就会手动创建并把他作为全局默认的SparkSession. 并在之后对用户的程序进行判断，是否定义了extension等配置.

(二)SparkContext

另外一种意义上的Spark入口类，SparkContext相当于连接Spark集群的纽带，并用来在集群中创建RDD、accumulators、broadCast变量.一个JVM只允许有一个SparkContext.所以在创建新的SparkContext之前必须调用stop()来停掉当前活跃的SparkContext(源码注释中标注：该限制将逐渐被移除[Spark-2243], 但是根据言论:动态分配并不能增大Executors的heap memory size, 并且一个JVM中如果跑了多种不同的task,一个Executor也不能同时适应io敏感型、内存敏感型、CPU敏感型的task，遂issue.close())

SparkContext会创建2个重要的对象分别为DAGScheduler和TaskScheduler 以及Spark的执行环境、SparkUI、以及注册 HeartbeatReceiver 心跳接收器以便Driver进程完成对Executor的管理.

在SparkContext中主要有个runJob方法通过dagScheduler.runJob => submitJob ，在submitJob方法中将会新生成一个JobWaiter

通过一个jobPromise变量来反映任务的完成状态,DAGScheduler会调用eventProcessLoop.post(实质就是把task提交到EventLoop的阻塞队列当中），eventloop通过new一个守护进程不停的轮询队列，并take获取已提交到队列中的事件进行处理(未完待续).

猜你喜欢

转载自blog.csdn.net/qq_38835878/article/details/84322708

Spark Streaming源码阅读（1）SparkSession和SparkContext

【Spark】SparkSession与SparkContext（详解）

spark源码之SparkContext

Spark源码阅读——streaming模块作业生成和提交

Spark Streaming源码阅读（0）楔子

Spark Streaming源码阅读（2）DAGScheduler

Spark源码分析-1.集群架构介绍和SparkContext源码分析

【Spark】源码分析之SparkContext

spark源码分析之sparkcontext

Spark之SparkContext源码分析

SparkContext和spark-shell

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

【Spark内核源码】SparkContext中的组件和初始化

Spark Streaming概述（1）

Spark2.4.0 SparkSession 源码分析

Spark Streaming

[Spark][spark_streaming]#1_QuickStart

Spark源码(1) Spark配置

Spark源码分析之SparkContext概述

Spark源码解析(二):SparkContext流程

Spark源码解读之SparkContext剖析

Spark-源码-SparkContext的初始化

Spark2.4.0 SparkContext 源码分析

Spark:SparkContext原理剖析与源码分析

Spark2.2源码剖析——SparkContext

Spark学习笔记(3)SparkContext源码

Spark源码剖析——SparkContext实例化

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)