阿里云Tesla P100GPU云服务器搭建TensorFlow环境

最近基于深度学习的图像识别项目需要用到GPU加速,申请了阿里云的GPU服务器,在搭建过程中遇到了一些问题,现在将搭建过程记录

环境: 阿里云GPU服务器Tesla P100

操作系统: Ubuntu 16.04

准备安装包(这个是我用来测试搭建的包,如果想用新版本,请自行下载,对应的包文件会提供下载链接):

Nvidia驱动: NVIDIA-Linux-x86_64-390.46.run

官网下载地址: http://www.nvidia.cn/Download/index.aspx?lang=cn (选好自己的GPU型号之后可以直接下载)

CSDN下载地址:https://download.csdn.net/download/u013092293/10403033

CUDA包:cuda_8.0.61_375.26_linux.run

官网下载地址: https://developer.nvidia.com/cuda-toolkit-archive (下载时需要注册账号)

文件太大发不上来,请自行下载

CUDNN包:cudnn-8.0-linux-x64-v6.0.tgz

官网下载地址: https://developer.nvidia.com/rdp/cudnn-archive(下载时需要注册账号)

CSDN下载地址:https://download.csdn.net/download/u013092293/10403092

本地环境

windows

xshell

开始前注意事项

使用xshell远程申请的GPU服务器(具体使用方法百度),如果连接失败

1.检查登录名和密码

2.检查阿里云GPU服务器的安全组规则(需要开启端口22,在选择协议类型时设置SSH(22),自定义TCP都可以)

3.检查公司的防火墙限制

开始安装

1.更新源

sudo apt-get update

2.python环境为Ubuntu 16.04默认的python环境,默认有python 2.7.12,python 3.5.2,现在我们使用python 3.5.2

3.安装pip3工具

sudo apt-get install python3-pip

4.安装lrzsz,使window可以向linux服务器上传文件

sudo apt-get install lrzsz

5.上传三个包文件

在服务器终端:

弹出框中选择

NVIDIA-Linux-x86_64-390.46.run,cuda_8.0.61_375.26_linux.run,cudnn-8.0-linux-x64-v6.0.tgz

6.安装nvidia驱动

cd到上传文件目录

执行驱动安装

sudo sh ./NVIDIA-Linux-x86_64-390.46.run

挂载Nvidia驱动

modprobe nvidia

查看nvidia是否安装成功

nvidia-smi

7.安装cuda

cd到上传目录

sudo sh ./cuda_8.0.61_375.26_linux.run

开始执行后会输出很多信息,使用空格翻页,到底后出现几个提问,按顺序填写

Do you accept the previously read EULA? accept

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 xxx.xx? n

Install the CUDA 8.0 Toolkit? y

Enter Toolkit Location

[ default is /usr/local/cuda-8.0 ]: 回车

Do you want to install a symbolic link at /usr/local/cuda? y --(生成cuda快捷方式)

Install the CUDA 8.0 Samples? y --(安装CUDA8.0的例子,可以选择不安装)

Enter CUDA Samples Location

[ default is /root ]: 回车

8. 设置CUDA环境变量

sudo vim ~/.bashrc

按G到最后一行,按i开始进行插入

export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64:/usr/local/cuda-8.0/extras/CUPTI/lib64"

export CUDA_HOME=/usr/local/cuda-8.0

esc --> :wq

保存退出

配置立即生效

source ~/.bashrc

9. 安装CUDNN(其实为解压拷贝)

cd到文件上传目录

解压cudnn

tar -zxvf cudnn-8.0-linux-x64-v6.0.tgz

开始拷贝(如果都按上述步骤来的话,下面的命令可直接运行)

sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64

sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda-8.0/lib64/libcudnn*

10.安装TensorFlow GPU版本

当前选择为tensorflow 1.3版本,

方法一:网好的话使用

pip3 install tensorflow-gpu==1.3

方法二:网不好的话,提供清华镜像站地址:https://mirrors.tuna.tsinghua.edu.cn/tensorflow/linux/gpu/

下载下whl文件后安装:

pip3 install tensorflow_gpu-1.3.0rc2-cp35-cp35m-linux_x86_64.whl

安装过程中可能会因为网络原因出现中断,多安装几次

11.安装完成之后

$ python3

> import tensorflow

不报错,即为安装成功

阿里云Tesla P100GPU云服务器搭建TensorFlow环境

猜你喜欢