Spark 环境 Local 模式

Spark 作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下 Spark 的运行

在这里插入图片描述

Local模式

想啥呢,你之前一直在使用的模式可不是 Local 模式哟。所谓的 Local 模式,就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境,一般用于教学,调试,演示等,之前在 IDEA 中运行代码的环境我们称之为开发环境,不太一样。

解压缩文件

将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中不要包含中文或空格。

[root@hadoop102 spark]# tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
[root@hadoop102 spark]# cd /opt/module 
[root@hadoop102 module]# mv spark-3.0.0-bin-hadoop3.2 spark-local

启动 Local 环境

1) 进入解压缩后的路径,执行如下指令

[root@hadoop102 spark-local]# bin/spark-shell

出现如下图,则成功。

在这里插入图片描述
2)启动成功后,可以输入网址进行 Web UI 监控页面访问(hadoop102:4040)

在这里插入图片描述

命令行工具

在解压缩文件夹下的 data 目录中,添加 word.txt 文件。
文件内容输入

hadoop spark
hello scala
spark hive
java spark

在命令行工具中执行如下代码指令(和 IDEA 中代码简化版一致)

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

在这里插入图片描述

退出本地模式

按键 Ctrl+C 或输入 Scala 指令

:quit

提交应用

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

1)–class 表示要执行程序的主类,此处可以更换为咱们自己写的应用程序
2) --master local[2] 部署模式,默认为本地模式,数字表示分配的虚拟 CPU 核数量
3)spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包,实际使用时,可以设定为咱们自己打的 jar 包
4)数字10 表示程序的入口参数,用于设定当前应用的任务数量

结果如下:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_45417821/article/details/121321691