大数据 - 第十一课 : Spark惰性计算及简单实践 - 代码天地

大数据 - 第十一课 : Spark惰性计算及简单实践

其他 2020-10-15 11:20:46 阅读次数: 0

开源软件迭代较慢

DAG：有向无环图

Hadoop计算中间结果落到磁盘，内存占用小
Spark惰性计算，遇到Action算子才执行，内存占用较大，资源利用率较低

RDD：是Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型
DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系
Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行Task
Application：用户编写的Spark应用程序
Task：运行在Executor上的工作单元
Job：一个Job包含多个RDD及作用于相应RDD上的各种操作
Stage：是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage，或者也被称为TaskSet，代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集

开启虚拟机，打开hadoop集群用start-all.sh命令

然后先全路径打开spark

从文件系统中加载数据创建RDD
（1）从本地文件系统中加载数据创建RDD
先新建目录 & word.txt文档

（2）从分布式文件系统HDFS中加载数据
创建删除文件夹（需要加-r，删除文件不需要加-r）

输入 “hadoop fs -ls /”命令查看hadoop分布式文件系统HDFS中的文件夹
或者进入http://master:50070/explorer.html#/ 网址直接查看文件夹

输入val hdfsfile = sc.textFile(“hdfs://master:9000/testSpark1/hdfsword.txt”) 命令
因为惰性计算，所以还要输入 hdfsfile.count() 开始执行，截图如下：

2. 通过并行集合（数组）创建RDD
可以调用SparkContext的parallelize方法，在Driver中一个已经存在的集合（数组）上创建。

或者，也可以从列表中创建：

3. 常用的RDD转换操作API

(1) filter(func)

(2) map(func)
map(func)操作将每个元素传递到函数func中，并将结果返回为一个新的数据集

(3) flatMap(func)

(4) groupByKey()
groupByKey()应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集
(5) reduceByKey(func)
reduceByKey(func)应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合后得到的结果

猜你喜欢

转载自blog.csdn.net/qq_44702847/article/details/106723736

大数据 - 第十一课 : Spark惰性计算及简单实践

大数据总结【第十一章：图计算】

大数据之路、阿里巴巴大数据实践读书笔记 --- 第十一章、事实表设计

MySQL数据库第十一课---------SQl语句的拔高-------水平提升

java从0开始学习第十一课-IO也是非常简单的

第十一课正则

python第十一课

【PY】【第十一课】

余老师带你学习大数据-Spark快速大数据处理第三章第十一节YARN调度器和实战编写

实践数据湖iceberg 第四十一课 iceberg的实时性-业界的checkpoint配置

实践数据湖iceberg 第四十一课测试维表更新场景

python+spark 2.0+hadoop 机器学习与大数据实战第十一章部分代码

大数据学习整理篇（十一）spark和Hbase大数据Docker文件的迁移（成功版）

超越Spark，大数据集群计算的生产实践

大数据学习(二十一)spark高级算子

大数据之路、阿里巴巴大数据实践读书笔记 --- 第十三章、计算管理

云计算与大数据第16章分布式内存计算平台Spark习题

2018.6.27 Python第十一课

第十一课预习笔记

第十一课预习内容

html第十一课form

第十一课听课笔记

apollo进阶第十一课

大数据Doris（三十一）：Doris简单查询

大数据Doris（四十一）：物化视图简单介绍

云计算与大数据第11章大数据隐私保护习题带答案

云计算与大数据第10章大数据应用习题带答案

云计算与大数据第9章大数据处理习题带答案

云计算与大数据第8章大数据采集习题及答案

云计算与大数据第7章大数据概览练习题及答案

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)