GPU机器安装paddle

安装基础包

 
          yum -y install epel-release 
         
          yum -y install kernel-devel 
         
          yum -y install dkms

编辑文件 /etc/default/grub 修改 “GRUB_CMDLINE_LINUX”
rd.driver.blacklist=nouveau nouveau.modeset=0

grub2-mkconfig -o /boot/grub2/grub.cfg

重启

安装显卡驱动

下载显卡驱动

 
          https://www.nvidia.com/Download/index.aspx?lang=en-us 
         
          下载完成是类似这样的文件 NVIDIA-Linux-x86_64- 
          410.72 
          .run 直接执行即可, 
         
          卸载 直接接参数 --uninstall 
         
          验证驱动是否正常 
         
          nvidia-smi

安装CUDA 9.0

我们使用rpm的方式安装

 
          https: 
          //developer.nvidia.com/cuda-91-download-archive?target_os=Linux&target_arch=x86_64&target_distro=CentOS&target_version=7&target_type=rpmlocal

需要把patch也一并下载

 
     
      
        
          -rw-r--r--  
          1  
          root root    
          155023660  
          Jul  
          14   
          2018  
          cuda-repo-rhel7- 
          9 
          - 
          0 
          - 
          176 
          -local-patch- 
          4 
          - 
          1.0 
          - 
          1 
          .x86_64.rpm 
         
 
          -rw-r--r--  
          1  
          root root   
          1595730326  
          Sep  
          23   
          2017  
          cuda-repo-rhel7- 
          9 
          - 
          0 
          -local- 
          9.0 
          . 
          176 
          - 
          1 
          .x86_64.rpm 
         
 
          -rw-r--r--  
          1  
          root root    
          150679337  
          Dec  
          21   
          2017  
          cuda-repo-rhel7- 
          9 
          - 
          0 
          -local-cublas-performance-update- 
          1.0 
          - 
          1 
          .x86_64.rpm 
         
 
          -rw-r--r--  
          1  
          root root    
          149765568  
          Feb  
          15   
          2018  
          cuda-repo-rhel7- 
          9 
          - 
          0 
          -local-cublas-performance-update- 
          2 
          - 
          1.0 
          - 
          1 
          .x86_64.rpm 
         
 
          -rw-r--r--  
          1  
          root root    
          173037836  
          May  
          24   
          2018  
          cuda-repo-rhel7- 
          9 
          - 
          0 
          -local-cublas-performance-update- 
          3 
          - 
          1.0 
          - 
          1 
          .x86_64.rpm 
         
 
      
 
     
   

在安装时,可能会有写软件包有冲突,比如ipa-client, salt-minion等, 我们可以暂时先把有冲突的卸载,回头在装回来

冲突的原因是用yum安装了python的模块,会造成python的pip管理有问题, 所以有冲突

rpm -ivh 安装完这些rpm 还没完事, 它其实只是解压在了/var目录

 
     
      
        
          (paddle-venv) root 
          @algorithmgpu 
          - 
          11 
          - 
          123 
          :/var# ls -ld /var/cuda* 
         
 
          drwxr-xr-x  
          3  
          root root   
          138  
          Aug   
          6  
          11 
          : 
          48  
          /var/cuda-repo- 
          9 
          - 
          0 
          - 
          176 
          -local-patch- 
          4 
          / 
         
 
          drwxr-xr-x  
          3  
          root root  
          4096  
          Aug   
          6  
          11 
          : 
          56  
          /var/cuda-repo- 
          9 
          - 
          0 
          -local/ 
         
 
          drwxr-xr-x  
          3  
          root root   
          138  
          Aug   
          6  
          11 
          : 
          48  
          /var/cuda-repo- 
          9 
          - 
          0 
          -local-cublas-performance-update/ 
         
 
          drwxr-xr-x  
          3  
          root root   
          138  
          Aug   
          6  
          11 
          : 
          48  
          /var/cuda-repo- 
          9 
          - 
          0 
          -local-cublas-performance-update- 
          2 
          / 
         
 
          drwxr-xr-x  
          3  
          root root   
          182  
          Aug   
          6  
          11 
          : 
          48  
          /var/cuda-repo- 
          9 
          - 
          0 
          -local-cublas-performance-update- 
          3 
          / 
         
 
      
 
     
   

我们需要在进入这些目录安装里面的rpm, 安装也是有顺序的

/var/cuda-repo-9-0-local/ rpm -ivh *
/var/cuda-repo-9-0-local/ rpm -Uvh * 其余patch依次按顺序

这样cuda就安装完成了, 安装目录在 /usr/local/cuda-9.0

下面配置环境变量

 
          cat /etc/profile.d/cuda.sh 
         
          export LD_LIBRARY_PATH=/usr/local/cuda/lib64/:${LD_LIBRARY_PATH} 
         
          export PATH=/usr/local/cuda/bin/:${PATH}

导入一下环境变量 source /etc/profile

安装cudnn-9.0-linux-x64-v7.1

下载上面的版本

 
          https: 
          //developer.nvidia.com/rdp/cudnn-download

安装

 
          https: 
          //docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html 
         
          其实只是拷贝到对应目录 
         
          $ sudo cp cuda/include/cudnn.h /usr/local/cuda/include 
         
          $ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 
         
          $ sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

编译安装paddle

文档

https://paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/install/compile/compile_CentOS.html

注意这句话执行编译前请您确认在虚环境中安装有编译依赖表中提到的相关依赖：

我们使用本机编译的方法, 非docker

照着文档一步步做就可以了

tips

make -j$(nproc) 这个命令执行时间可能得半天,根据不同网络而定

因为要下载很多git上的仓库

最后这个paddle的目录有 8.4G