Spark 官网提供了附有 Hadoop 和 Scala 的预编译包,大大简化了安装过程。
避坑:Spark里附有的Hadoop据我观察并不是Hadoop完整本体,而只是包括了HDFS、Hbase等Spark依赖的文件管理组件,如果你同时有使用完整Hadoop功能的需求,是要分开安装Hadoop和Spark的,这篇教程不适合你
下面我将用一台全新的 Linux 虚拟机进行安装:
虚拟机软件:VMware® Workstation 16 Pro
系统:ubuntu-22.04.1-desktop-amd64
安装Java
注意这里 JAVA 版本要和你的 Spark 支持的版本一致,这里我使用 Java 17
官网:Overview - Spark 3.3.0 Documentation
Spark runs on Java 8/11/17, Scala 2.12/2.13, Python 3.7+ and R 3.5+. Java 8 prior to version 8u201 support is deprecated as of Spark 3.2.0. For the Scala API, Spark 3.3.0 uses Scala 2.12. You will need to use a compatible Scala version (2.12.x).
在环境变量里一定要写JAVA_HOME,具体java怎么装不赘述了,网上随便找了个教程链接 在linux环境下安装java - 柯南。道尔 - 博客园
下载Spark
注意选第一个框里带 Hadoop 和 Spark 的版本
安装
解压到指定目录
sudo tar -xzvf [你的下载文件路径] -C [你的Spark安装路径]
【】里的路径自己看着改,改好了大概长这样
sudo tar -xzvf ~/Downloads/spark-3.3.0-bin-hadoop3-scala2.13.tgz -C ~/Software/Spark
验证是否成功安装
进入你安装的目录
cd [你的Spark安装路径]
运行示例代码——求圆周率(近似数保留10位小数)
./bin/run-example SparkPi 10
会输出很多东西,但只要结果这句出来了应该就没问题
就这么简单