Hadoop---MR的Job提交源码---(源码篇一) - 代码天地

Hadoop---MR的Job提交源码---(源码篇一)

其他 2020-06-21 10:15:11 阅读次数: 0

MR的Job提交源码

刨析一遍切片原理
以源码角度，来深刻理解MR工作原理。
MR源码分析：（wordCount案例）–入口类

问题：
MR中的Job，是如何提交的
首先：
DeBug流程走一波。
在这里插入图片描述
进入提交作业方法：

它这里做了一件事，获取了配置信息，思考题：什么配置信息？不会可以留言

通过YarnClientProtocolProvider | LocalClientProtocolProvider 根据配置文件的参数信息
获取当前job需要执行到本地还是Yarn
最终:LocalClientProtocolProvider ==> LocalJobRunner
在这里插入图片描述
然后我们出来，再看一下下图这个方法。
之前我们设定参数为True，这里用Verbose这个来接收，传True代表将参数进行打印，重点是submit，进入submit，走一遍提交流程。

这个方法内部又返回了一个方法：submitJobInternal()，我们继续深入。打开submitJobInternal()，方法如下：
在这里插入图片描述
<1> . checkSpecs(job); 检查job的输出路径。
<2> . Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
生成Job提交的临时目录
D:\tmp\hadoop\mapred\staging\Administrator1777320722.staging
<3> . JobID jobId = submitClient.getNewJobID(); 为当前Job生成Id
<4> . Path submitJobDir = new Path(jobStagingArea, jobId.toString()); Job的提交路径
d:/tmp/hadoop/mapred/staging/Administrator1777320722/.staging/job_local1777320722_0001
<5> . 下面有个：copyAndConfigureFiles(job, submitJobDir);我们点进去
在这里插入图片描述

DeBug到这里，才是创建Job的提交路径
我们再返回去

<6> . int maps = writeSplits(job, submitJobDir); //生成切片信息，并返回切片的个数

<7> . conf.setInt(MRJobConfig.NUM_MAPS, maps); //通过切片的个数设置MapTask的个数
在这里插入图片描述
<8> . writeConf(conf, submitJobFile); //将当前Job相关的配置信息写到job提交路径下
路径下: job.split job.splitmetainfo job.xml xxx.jar

<9> .status = submitClient.submitJob(jobId,submitJobDir.toString(),job.getCredentials()); //到了这里，才是真正提交Job

在这里插入图片描述
<10> . jtFs.delete(submitJobDir, true); //等job执行完成后，删除Job的临时工作目录的内容

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_45284133/article/details/105610132

Hadoop---MR的Job提交源码---(源码篇一)

Hadoop----MR(Map与Job的联系源码)----(源码篇二)

hadoop yarn的job提交流程源码分析

Hadoop之job提交流程源码简析

Hadoop基础---MapReduce及YARN中job提交源码分析

【Hadoop-2.7 源码系列】0-WordCount 解析及整个MR Job的执行流程介绍

MapReduce Job提交源码跟踪

hadoop之MR Job案例

Spark源码分析-2.Job提交

Spark源码解读之Job提交

MapReduce-提交job源码分析

八、MapReduce--job提交源码分析

MapReduce job任务源码提交流程

大数据-Hadoop生态(13)-MapReduce框架原理--Job提交源码和切片源码解析

hadoop 任务提交源码分析

Hadoop MapReduce Job执行过程源码跟踪

Hadoop源码详解之Job 类

【Debug跟踪Hadoop3.0.0源码之MapReduce Job提交流程】第三节 Job提交前的初始化

hadoop 源码分析(一) jobClient 提交到JobTracker

Hadoop学习（源码编译篇）

spark源码学习（二）- DAGSchedular 划分job,提交stage的过程

MapReduce Job集群提交过程源码跟踪及分析

MapReduce Job本地提交过程源码跟踪及分析

Spark 2.x 提交Job源码浅析

MapReduce 客户端提交Job源码跟踪

MapReduce之job提交过程源码分析-03

95-090-020-源码-bin脚本-CLI提交Job

Mr源码分析

MR 源码分析

Hadoop-2.7.3源码分析：MapReduce作业提交源码跟踪

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)