在Ubuntu 17.10上安装Apache Spark

什么是Spark?

如果你从事这个职位,那么很可能你已经知道Spark是什么了。 但是,以防万一,从他们的主页可以看出Spark是简单的:

Apache Spark是一个快速和通用的集群计算系统。 它提供Java,Scala,Python和R中的高级API,以及支持通用执行graphs的优化引擎。 它还支持一套丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX以及Spark Streaming。

必要条件

对于这个Spark服务器,我们需要一个虚拟机(或者物理服务器,如果有的话)至少有8GB的RAM,4个vCPU和60GB的空间。 还假设你有一个mesos集群来运行我们的Spark。 如果你不这样做,不要害怕你还可以运行spark,但这篇文章不会涵盖这一场景。

我们的第一步是确保更新我们的Ubuntu服务器。更新完成后,继续并重新启动。

# apt update && apt upgrade -y
# reboot

下一步安装 Java 8.

# apt install -y openjdk-8-jdk

由于我们将使用Mesos来部署,因此我们需要在系统上安装mesos,以便我们可以指向mesos库。 可能有一个更简单的方法(我知道这种方式糟透了)做到这一点,但这就是我知道的对我有用的方法。 如果您知道更简单的方法,请在下面评论。 您将需要下载并编译您要部署到的相同版本的Mesos。 对我来说是Mesos 1.4.0。

# apt -y install build-essential python-dev libcurl4-nss-dev libsasl2-dev libsasl2-modules maven libapr1-dev libsvn-dev unzip libz-dev
# wget http://archive.apache.org/dist/mesos/1.4.0/mesos-1.4.0.tar.gz
# tar -xzvf mesos-1.4.0.tar.gz
# cd mesos-1.4.0/
# mkdir build
# cd build
# ../configure
# ln -s /usr/include/locale.h /usr/include/xlocale.h # this is needed or the compile will fail
# make -j 2 V-0
# make install
# ldconfig

我告诉过你这很糟糕,但这是必要的。

我们现在准备下载并安装Spark。

安装 Spark

Get the latest stable release of spark from their downloads page http://spark.apache.org/downloads.html. Leave the selection boxes at their default. At the time of this writing, the latest version of Spark is 2.2.0 so we will download that version. Click on the link on step 3 and you will be taken to a list of mirrors. Copy the URL for the recommended mirror. Next go back to your Spark server and run the following command, substituting your URL:

从官方下载页面http://spark.apache.org/downloads.html获取最新的稳定版Spark。将选择框保留在缺省值中。在写这篇文章时,Spark的最新版本是2.2.0,所以我们将下载该版本。 点击第3步的链接,你将被带到镜像列表。 复制推荐镜像的URL。 接下来返回到您的Spark服务器并运行以下命令,替换您的URL:

# wget http://mirror.reverse.net/pub/apache/spark/spark-2.2.0/spark-2.2.0-bin-2.7.tgz

解压下载来的包文件.

# tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz 

将我们的目录重命名为spark,并将其移到更好的地方。

# mv spark-2.2.0-bin-hadoop2.7 spark
# mv spark /usr/local/spark

出于某种原因,当我下载并提取它时,我拥有了用户500组500所拥有的所有文件。请检查并确认是否属于这种情况。

# ls -al /usr/local/spark

如果是这样,那么你将需要修复权限。

# chown root:root -R /usr/local/spark

此时我们已经在我们的服务器上安装了Spark。 现在是配置它与Mesos一起工作的时候了。

配置Spark以使用Mesos

在Mesos slaves,你将需要安装Spark二进制文件,就像我们以前做的。 下面是整个命令:

# wget http://mirror.reverse.net/pub/apache/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
# tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz 
# mv spark-2.2.0-bin-hadoop2.7 spark
# mv spark /usr/local/spark
# chown root:root -R /usr/local/spark

当Spark触发将运行我们的Spark执行程序的mesos任务时,它将会像查看它的任何框架一样寻找它。 确保你在所有的Mesos slaves上这样做。

现在回到你的Spark服务器上,我们需要配置它来使用Mesos。 我们要做的第一件事就是编辑我们的spark环境脚本。

# mv conf/spark-defaults.conf.template conf/spark-defaults.conf

编辑文件并添加以下行:

spark.mesos.task.labels=text:text1
spark.mesos.executor.home=/usr/local/spark/

这第一行就是阻止一些恼人的警告,如果你没有那样坐,你会收到。 第二行告诉Mesos哪里可以找到我们Mesos slaves从站上的Spark二进制文件。 我们现在准备在客户端模式下运行Spark,这将给我们一个CLI,我们可以用它来测试。

第一行是为了阻止一些恼人的警告,如果你不在那里,你会收到。第二行告诉Mesos在哪里可以找到Mesos奴隶的Spark二进制文件。现在我们已经准备好在客户端模式中运行Spark,它将给我们一个CLI,我们可以使用它来测试。

测试你的Spark安装

现在,一切正确配置,我们可以测试,以确保一切正常。 你将需要你的mesos masters的zookeeper地址格式如下:

mesos://zk://mesos1:2181,mesos2:2181,mesos3:2181/mesos

我实际上使用IP地址进行安装,当我们启动python客户端时,这将是必需的。导出环境变量MESOS_NATIVE_JAVA_LIBRARY设置为您的libmesos.so位置,如果您按照上面的说明执行操作:

export MESOS_NATIVE_JAVA_LIBRARY=/usr/local/lib/libmesos.so

使用以下命令运行客户端:

# ./bin/pyspark --master mesos://zk://mesos1:2181,mesos2:2181,mesos3:2181/mesos

这将加载python Spark客户端,并在Mesos上启动一些任务。 您可以通过转到您的mesos集群GUI(http://{mesos-ip}:5050)并查看Active Tasks来验证。 你应该看到两个PySparkShell的任务名称。 您还应该看到您的CLI正在运行:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.2.0
      /_/

Using Python version 2.7.14 (default, Sep 23 2017 22:06:14)
SparkSession available as 'spark'.
>>>

您还可以在以下位置查看Spark应用程序UI:

http://{spark-ip}:4040

我希望你喜欢这个帖子。 如果有帮助或者如果有问题,请发表评论并告诉我。

更多Spark相关教程见以下内容

Spark 的详细介绍请点这里
Spark 的下载地址请点这里

猜你喜欢

转载自www.linuxidc.com/Linux/2017-12/149853.htm