Spark WordCount运行原理及其详细执行过程

其他 2021-02-28 02:35:49 阅读次数: 0

Spark WordCount运行原理

1、WordCount执行流程图

在这里插入图片描述

2、Spark WordCount代码

	//创建SparkContext
    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")
    val sc = new SparkContext(conf)
    //读取文件内容,也可以直接读取本地文件
    val lines = sc.textFile("hdfs://...")
    //词频统计并输出结果
    val words = lines.flatMap(x=>x.split(" "))
    val pairs = words.map(x=>(x,1))
    val wordCounts = pairs.reduceByKey(_+_)
    wordCounts.foreach(println)
    //以上步骤可简写为：lines.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_).foreach(println)

代码解析：

创建Spark入口
读取文件创建RDD
词频统计
输出结果

3、WordCount执行步骤

（1）创建Spark编程入口SparkContext

（2）读取文件，将文件中的内容保存到RDD

（3）将工作分配到各主机节点

（4）各主机节点对自己分到的任务进行操作，首先进行单词划分，按空格分隔，生成flatMappedRDD

（5）然后将各单词生成Map键值对，输出(Word,1)

（6）然后将不同节点上的单词进行局部统计求和，生成局部WordCount的MapPatitionRDD

（7）接着对各节点间进行Shuffle，将各节点间的单词进行词频统计，生成最后的MapPatitionRDD

（8）最后输出结果

猜你喜欢

转载自blog.csdn.net/qq_42578036/article/details/109642157

Spark WordCount运行原理及其详细执行过程

WordCount在Spark的执行原理

spark(五)-wordcount执行过程

Spark集群中WordCount运行原理

spark的wordcount执行流程

Spark WordCount 执行流程

Spark打包运行wordcount

spark运行wordcount

spark通过spark shell执行WordCount

【Spark】Spark任务执行原理

spark driver执行过程及其消息循环

Spark WordCount

Spark的WordCount

Spark架构及运行机制（2） - Spark作业执行过程

Spark WordCount原理解析

Spark原理 | 初学Spark

spark -- Spark原理初探

【Spark】Spark六： Spark版本的WordCount

SPARK及其工作原理

Spark执行流程（详细）

Spark运行原理【史上最详细】

spark任务执行过程

Update：Spark原理_运行过程_高级特性

大话Spark(3)-一图深入理解WordCount程序在Spark中的执行过程

spark运行过程解析

Spark作业执行原理

Spark执行原理概述

Spark运行原理剖析

Spark on Yarn的运行原理

spark生态及运行原理

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)