在CentOS下升级PySpark使用Python 3.x

来源:https://blog.csdn.net/otie99/article/details/79342133

当前Spark官网的最新版本尚未直接支持Python 3.x版本,经过一番折腾,集合网上各种说明,整理了如下的PySpark升级Python 3.x的步骤 (经实际操作可成功升级):

配置环境: 

  • 操作系统:CentOS Linux release 7.4.1708(Core)
  • JAVA: 1.8.0_151
  • Hadoop: 3.0.0
  • Spark: 2.2.1
  • Python: 3.6.4

配置步骤: 

    1. 使用 python –V 检查当前版本号,centos7默认配置的应该是python 2.x

    2. 安装gcc,用于编译Python源码   yum install gcc

    3. 安装zlib相关依赖包  yum -y install zlib*

    4. 在Python官网https://www.python.org/ftp/python/下载最新版本的Python,我下载的是3.6.4

    5. 解压下载下来的python安装包:tar –zxvf Python-3.6.4.tgz

    6. 进入 Python-3.6.4 文件夹:cd Python-3.6.4

    7. 修改 Modules/Setup.distvi Modules/Setup.dist

            #zlib zlibmodule.c -I$(prefix)/include -L$(exec_prefix)/lib–lz

            把这行注释去掉

    8. 编译安装

            ./configure

            make all

            make install

    9. 查看安装后Python3的版本号:python3 –V

    10. 配置Spark使用python3启动:

            修改环境配置文件:vi ~/.bashrc,添加如下的环境变量设置

            export PYSPARK_PYTHON=python3

            保存后,使文件生效:source ~/.bashrc

    11. 启动pyspark,看是否已经使用最新版本的python

猜你喜欢

转载自blog.csdn.net/wydyd110/article/details/80548555