ubuntu17.04 + cuda 8.0 + cudnn 6 + tensorflow 1.2

        公司买了一个服务器用于机器学习 ,于是开始了漫漫安装路。

        查资料发现 tensorflow gpu模式在ubuntu系统上比较好跑,就让系统部同事装了ubuntu系统64位。机器到手后,发现装的是ubuntu14.04,感觉版本略低,升级到16.04。然后安装nvidia,用命令

 lspci | grep -i nvidia也查到了,安装cuda,但是一直报错

 开始以为是系统的问题,又把系统升级到了17.04,然并卵,还是报一样的错。后来问了戴尔的工作人员,人家说可能是线没插好,导致供电不足。在远程指导下,同事连上了关键的一根线,果然不报错了。好了,硬件完备,开启配环境之路。

 

一切从头讲起。

1.安装nvidia驱动

去官网http://www.nvidia.cn/Download/index.aspx?lang=cn找适合自己的驱动。


 按照官网的安装方法安装即可。

(

sudo add-apt-repository ppa:graphics-drivers/ppa

sudo apt-get update 
sudo apt-get install nvidia-367 
sudo apt-get install mesa-common-dev 

sudo apt-get install freeglut3-dev

我开始按照以上命令装的375,后来版本不对,官网的这个一切正常)

2.安装cuda

卸载cuda http://blog.csdn.net/u012436149/article/details/53163346

开始本着要用最新版的原则,安装了cuda9.0,后来装tensorlfow发现cuda版本太高了。装8.0就可以。下载见官网https://developer.nvidia.com/cuda-downloads。我开始9.0(9.0的地址是realse-download地址https://developer.nvidia.com/cuda-release-candidate-download)的时候用的是runfile安装方案,安装一切正常,但是后来发现版本不允许,之后装8.0的时候runfile总是报错,就改为deb方案了,按照官网方法安装,一切正常



 

如果采用runfile方案,有个细节需要注意 ,在询问 Install NVIDIA Accelerated Graphics Driver fo Linux-xx时,选n。因为前面已经装了合适版本的nvidia,这里再装会有两个(而且这个版本较低),之后在跑cuda的samples时会有一个返回38的报错,若是因为版本问题会返回一个35的报错。

 装完,进入/usr/local/cuda-8.0/samples/1_Utilities/deviceQuery  使用 make命令 ,然后运行./deviceQuery

 


 3.装cudnn 

去官网下载https://developer.nvidia.com/cudnn 

我目前用的是6.0(2017.9.4)可能过几个月tensorflow就支持7.0也说不定,毕竟7月的时候还在用5.1.



 我开始装的是5.1,然后装tensorflow的时候报错了,ImportError: libcudnn.so.6: cannot open shared object file: No such file or directory,需要6,我就重新装了6.执行以下语句即可。

tar -zxf cudnn-8.0-linux-x64-v6.0.tgz

sudo cp include/cudnn.h /usr/local/cuda-8.0/include

sudo cp lib64/libcudnn* /usr/local/cuda-8.0/lib64

4.tensorflow-gpu

(1)安装依赖(我用的python3)

sudo apt-get install python-pip python-dev # for Python 2.7 sudo apt-get install python3-pip python3-dev # for Python 3.n

(2)

pip install tensorflow-gpu # Python 2.7; GPU support pip3 install tensorflow-gpu # Python 3.n; GPU support

这个我花了很久,因为他总是超时,试了很多遍终于下好了。

 

测试

$ python3

>>> import tensorflow

>>> import tensorflow as tf

>>> hello = tf.constant('haha,tensorflow')

>>> sess = tf.session()

>>> print(sess.run(hello))



 OK!!!!

参考了以下网址:

http://www.linuxidc.com/Linux/2017-01/139319.htm

http://blog.csdn.net/dream_an/article/details/74992346

 

1.常见问题补充

http://blog.csdn.net/hjimce/article/details/51999566

2018.1.30后续

1.升级tensorflow-gpu-1.5,报错ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory

该版本的tensorflow需要libcublas.so.9.0,即需要装cuda9.0版本,cudnn也要装对应版本。

(开始我装了最新版,cuda9.1,等了半天装好了,结果版本不对,科科)

猜你喜欢

转载自zlele.iteye.com/blog/2392110