阿里云Tesla P100GPU云服务器搭建TensorFlow环境

最近基于深度学习的图像识别项目需要用到GPU加速,申请了阿里云的GPU服务器,在搭建过程中遇到了一些问题,现在将搭建过程记录

环境: 阿里云GPU服务器Tesla P100

操作系统: Ubuntu 16.04

准备安装包(这个是我用来测试搭建的包,如果想用新版本,请自行下载,对应的包文件会提供下载链接):

    Nvidia驱动: NVIDIA-Linux-x86_64-390.46.run

    官网下载地址: http://www.nvidia.cn/Download/index.aspx?lang=cn (选好自己的GPU型号之后可以直接下载)

     CSDN下载地址:https://download.csdn.net/download/u013092293/10403033

    CUDA包:cuda_8.0.61_375.26_linux.run

    官网下载地址: https://developer.nvidia.com/cuda-toolkit-archive (下载时需要注册账号)

      文件太大发不上来,请自行下载

    CUDNN包:cudnn-8.0-linux-x64-v6.0.tgz

    官网下载地址: https://developer.nvidia.com/rdp/cudnn-archive(下载时需要注册账号)

     CSDN下载地址:https://download.csdn.net/download/u013092293/10403092


本地环境

windows

xshell


开始前注意事项

使用xshell远程申请的GPU服务器(具体使用方法百度),如果连接失败

1.检查登录名和密码

2.检查阿里云GPU服务器的安全组规则(需要开启端口22,在选择协议类型时设置SSH(22),自定义TCP都可以)

3.检查公司的防火墙限制


开始安装

1.更新源

    sudo apt-get update

2.python环境为Ubuntu 16.04默认的python环境,默认有python 2.7.12,python 3.5.2,现在我们使用python 3.5.2

3.安装pip3工具

    sudo apt-get install python3-pip

4.安装lrzsz,使window可以向linux服务器上传文件

    sudo apt-get install lrzsz

5.上传三个包文件

    在服务器终端:

    rz

    弹出框中选择

    NVIDIA-Linux-x86_64-390.46.run,cuda_8.0.61_375.26_linux.run,cudnn-8.0-linux-x64-v6.0.tgz

6.安装nvidia驱动

    cd到上传文件目录

    执行驱动安装

  sudo sh ./NVIDIA-Linux-x86_64-390.46.run

  挂载Nvidia驱动

  modprobe nvidia

  查看nvidia是否安装成功

  nvidia-smi

7.安装cuda

  cd到上传目录

  sudo sh ./cuda_8.0.61_375.26_linux.run

    开始执行后会输出很多信息,使用空格翻页,到底后出现几个提问,按顺序填写

    Do you accept the previously read EULA?     accept

     Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 xxx.xx?  n

     Install the CUDA 8.0 Toolkit?  y

     Enter Toolkit Location

     [ default is /usr/local/cuda-8.0 ]:  回车

     Do you want to install a symbolic link at /usr/local/cuda?  y      --(生成cuda快捷方式)

     Install the CUDA 8.0 Samples?  y  --(安装CUDA8.0的例子,可以选择不安装)

     Enter CUDA Samples Location

     [ default is /root ]:  回车

8. 设置CUDA环境变量

    sudo vim ~/.bashrc

    按G到最后一行,按i开始进行插入

    export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64:/usr/local/cuda-8.0/extras/CUPTI/lib64"

    export CUDA_HOME=/usr/local/cuda-8.0

    esc --> :wq

    保存退出

    配置立即生效

    source ~/.bashrc

9. 安装CUDNN(其实为解压拷贝)

   cd到文件上传目录

   解压cudnn

   tar -zxvf  cudnn-8.0-linux-x64-v6.0.tgz

   开始拷贝(如果都按上述步骤来的话,下面的命令可直接运行)

   sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include
   sudo cp cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64

   sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda-8.0/lib64/libcudnn*

10.安装TensorFlow GPU版本

    当前选择为tensorflow 1.3版本,

    方法一:网好的话使用

    pip3 install tensorflow-gpu==1.3

    方法二:网不好的话,提供清华镜像站地址:https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/gpu/

    下载下whl文件后安装:

    pip3 install tensorflow_gpu-1.3.0rc2-cp35-cp35m-linux_x86_64.whl

    安装过程中可能会因为网络原因出现中断,多安装几次

11.安装完成之后

    $ python3

    > import tensorflow

    >

    不报错,即为安装成功

  

    







猜你喜欢

转载自blog.csdn.net/u013092293/article/details/80253908