Kubernetes Scheduler运行Spark（一） - 代码天地

Kubernetes Scheduler运行Spark（一）

其他 2020-03-02 09:35:09 阅读次数: 0

概念：

版本2.3.0起，Spark开始支持采用Kubernetes作为native的资源调度器；

使用Kubernetes作为原生调度器需要满足如下的前提条件：

Spark 2.3+
Kubernetes 1.6+
有增删改查POD的能力
Kubernetes配置了DNS

和传统的Spark运行方式一样，通过spark-submit向Kubernetes提交任务，只是将master设置为Kubernetes的master的地址就可以使用Kubernetes的scheduler对spark的任务进行调度；

在提交任务之后，会先启动一个driver pod， driver和Kubernetes沟通并启动一系列的executor pod执行任务。在任务完成之后，所有executor pod都会被删除，但是driver pod会被保留，并处于complete状态，不占用任何内存和cpu资源，所有的log和结果都可以在drvier pod中找到。

Kubernetes运行Spark任务：

1:下载spark2.3.0-bin-hadoop2.7.tgz

wget http://archive.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

扫描二维码关注公众号，回复： 9521132 查看本文章

2:构建docker镜像

cd spark-2.3.0-bin-hadoop2.7

docker build -t bigdata/spark:2.3.0 -f kubernetes/dockerfiles/spark/Dockerfile .

docker push bigdata/spark:2.3.0

3:建立Spark的运行service account和cluster role

kubectl create serviceaccount spark

kubectl create clusterrolebinding spark-role --clusterrole=edit --serviceaccount=default:spark --namespace=default

4:submit Pi提交计算任务

bin/spark-submit --master k8s://https://xxx.xxx.xxx.xxx:6443 #k8s的master集群 \

--deploy-mode cluster --name spark-pi #Pod名字的前缀 \

--class org.apache.spark.examples.SparkPi \

--conf spark.executor.instances=2 \

--conf spark.kubernetes.authenticate.driver.serviceAccountName=spark \

--conf spark.kubernetes.container.image=bigdata/spark:2.3.0 \

local:///opt/spark/examples/jars/spark-examples_2.11-2.3.0.jar

5:任务运行

kubectl get pods --all-namespaces -o wide | grep spark | grep -v Completed

6:查看日志

kubectl logs xxxx

发布了114 篇原创文章 · 获赞 16 · 访问量 10万+

私信关注

猜你喜欢

转载自blog.csdn.net/CodeAsWind/article/details/104605140

Kubernetes Scheduler运行Spark（一）

Kubernetes源码阅读笔记——Scheduler（之一）

Kubernetes的Spark运行Terasort(四)

kubernetes scheduler 模块分析

kubernetes之Scheduler

kubernetes之Scheduler分析

kubernetes部署-scheduler(四)

Kubernetes组件Scheduler

kubernetes scheduler(调度器)

Kubernetes Scheduler浅析

Kubernetes(一)

kubernetes scheduler 模块分析 - 续

kubernetes之Scheduler原理分析

【转】Kubernetes scheduler学习笔记

Kubernetes总结一：初识Kubernetes

Kubernetes一 Kubernetes之入门

Running Spark on Kubernetes

TalkingData的Spark On Kubernetes实践

如何实现Spark on Kubernetes？

Kubernetes学习笔记（三）------运行Kubernetes集群

[kubernetes]-kubernetes+nfs运行禅道

gearman kubernetes 运行

在 Kubernetes 上运行 PostgreSQL

Kubernetes的Service运行原理

Kubernetes 运行strom（七）

Kubernetes 运行flink（六）

Kubernetes运行hive（五）

[kubernetes]-运行django项目

Spark in action on Kubernetes - 存储篇（一）

Kubernetes编译并运行基于Scalar的Spark程序WordCount（二）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)