安装ubuntu20.4+gtx1050+cuda11.3

前言

系统安装已经写了很多博客。本片是试图用一个比较老的GPU卡和新的操作系统Ubuntu20.04,以及新的CUDA版本进行安装。试图找出CUDA安装的总规律。期望大家通过本篇可以知道对任意Nvidia卡和任意操作系统,以及任意的cuda安装有一个基本的原则和思路。

1 背景知识:

安装cuda,需要记住若干的要点

CUDA开发环境依赖于与主机开发环境(包括主机编译器和C运行时库)的紧密集成,因此,有如下要点,安装者必须清楚:

1)ubuntu版本不同,安装差别很大,安装步骤出错后,不能前后借鉴。

2)cuda在11.0之前和之后差别很大,11.0之后必须给出依赖名字。

3)安装cuda-toolkit文件必须挑选能和驱动匹配的。

4)c和c++一般需要注意,要求高版本就行。

5)系统清除必须干净,否则后患无穷。nouveau

6)  内核(和驱动)与CUDA的关系:

      内核版本号 == 驱动版本号 == CUDA所指驱动版本号

以上三者必须是一致的。

如果看了上图还不明白啥意思,那就请比较下面两个图:

 

 上面两个图的版本信息的一致性。

2 系统检查

系统检查很重要,系统安装成否,系统有那些不匹配,必须有相关的检测语句完成检测。

  • Verify the system has a CUDA-capable GPU.
  • Verify the system is running a supported version of Linux.
  • Verify the system has gcc ,g++,make installed.
  • Verify the system has the correct kernel headers and development packages installed.
  • Download the NVIDIA CUDA Toolkit.
  • Handle conflicting installation methods.

1)查看显卡驱动所使用的内核版本

cat /proc/driver/nvidia/version

2)系统驱动安装日志

cat /var/log/dpkg.log | grep nvidia

3)查看驱动程序包

sudo dpkg --list | grep nvidia-*

3 系统清除

清除的要点是必须要干净。清除以前的安装很重要,有时清理不干净,后面就不能正确安装:

1)清除cuda

另外,安装不上是常态,如何清除已经安装了一半的废墟?清除已安装的cuda官方提示语句:

sudo apt-get --purge remove "*cublas*" "*cufft*" "*curand*" \
 "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "cuda*" "nsight*"

2)清除Nvidia驱动程序

实际上未必清理干净,需要以下语句补充:

( sudo /usr/bin/nvidia-uninstall ) -------- runfile包适用,deb包不适用
sudo  apt-get  --purge  remove  "*nvidia*"
sudo apt-get purge nvidia*
sudo apt-get purge libnvidia*

sudo apt autoremove

执行以上语句后,结果检查,以下语句执行后无内容:

sudo dpkg --list | grep nvidia-*

Installation Guide Linux :: CUDA Toolkit Documentation

4 驱动程序选择和安装

1) 检查系统的推荐

ubuntu-drivers devices

以上推荐了几个版本:【470,460,450】,可以按照提示,下载相应的驱动版本。注意,这里推荐的470不一定能使,建议下载几个版本供尝试使用。

2) 下载nvidia驱动程序

进入以下地址可以选择多种版本:官方 GeForce 驱动程序 | NVIDIA

官方提供的安装步骤:

  • Verify the system has a CUDA-capable GPU.
  • Verify the system is running a supported version of Linux.
  • Verify the system has gcc installed.
  • Verify the system has the correct kernel headers and development packages installed.
  • Download the NVIDIA CUDA Toolkit.
  • Handle conflicting installation methods.

还有一个下载地址提供最新版本,但很全,比如T4的驱动:

Download Drivers | NVIDIA

按照要求,填写你的板卡信息:

 点击:开始搜索后,出现很多驱动版本,挑选最新的下载。

ros古月学院

 下载后文件为:NVIDIA-Linux-x86_64-470.74.run,暂时保存,留在第n步使用。

目前未被淘汰的版本有:

470 74 465 31
63 27
57 24
460 91 455 45
84 38
80 28
73
435 21 415 27

3)安装驱动

sudo chmod  a+x  NVIDIA-Linux-x86_64-470.74.run

./ NVIDIA-Linux-x86_64-470.74.run

reboot

1 进入低级分辨状态,2 进入root权限    3 执行NVIDIA-Linux-x86_64-470.74.run文件     4 进入选项:

The distribution-provided pre-install script failed! Are you sure you want to continue? 选择 yes 继续。
Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later?  选择 No 继续。
问题没记住,选项是:install without signing
问题大概是:Nvidia's 32-bit compatibility libraries? 选择 No 继续。
Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up.  选择 Yes

 reboot

git clone https://github.com/ros-infrastructure/rosdep

系统进入高分辨率状态,表明驱动完成。

4 禁用nouveau驱动

有的时候需要禁止nouveau;当

1) 将开源驱动加入黑名单

在blacklist.conf的末尾添加

sudo vim /etc/modprobe.d/blacklist.conf

末尾追加:

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

禁用nouveau驱动4 )禁用nouveau驱动 

echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf 

2)更新并重启

sudo update-initramfs -u
reboot

5 安装cuda11.3版本

1)查看驱动和cuda的配套版本:

CUDA Toolkit 11.3 Downloads | NVIDIA Developer

Release Notes :: CUDA Toolkit Documentation

2)按照官方指导,一步一步安装。

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda-repo-ubuntu2004-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo apt-key add /var/cuda-repo-ubuntu2004-11-3-local/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda

3)测试CUDA的samples

cd /usr/local/cuda/samples/1_Utilities/deviceQuery #由自己电脑目录决定
make
sudo ./deviceQuery

有result=ok就算成功!

文章参考:

Nvidia 显卡 Failed to initialize NVML Driver/library version mismatch 错误解决方案_zywvvd的博客-CSDN博客

Ubuntu 19.04 server版本安装RTX 2070显卡驱动错误:The Nouveau kernel driver is currently in use by your sys... - 简书



 

猜你喜欢

转载自blog.csdn.net/gongdiwudu/article/details/120430769