딥 러닝 nvidia 드라이버 실행의 갑작스러운 효과에 대한 자세한 솔루션

딥러닝을 자주 실행하기 때문에 그래픽 카드 드라이버에 대한 명확하고 모호하지 않은 이해가 있으므로 실행할 수 있습니다. 그러나 오늘 cuda를 사용하여 pytorch 프레임워크를 실행했을 때 갑자기 오류가 보고되었습니다.

RuntimeError: No CUDA GPUs are available

쭉 cuda를 사용하고 있어서 고칠 수가 없는데 오늘 갑자기 이런 일이 생겨서 torch.cuda.is_available()먼저 해봤는데 false 였습니다.
그 다음에

nvidia-smi

결과

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

내가 주의를 기울이지 않는 동안 내 우분투가 비밀리에 커널을 업그레이드하여 nvidia 버전이 일치하지 않게 된 것입니다.
실행 cat /var/log/dpkg.log |grep nvidia
여기에 이미지 설명 삽입
하고 첫 번째 줄을 보면 525.116.04에서 525.125.06으로 업그레이드된 것을 볼 수 있으며 그 다음 cat /proc/driver/nvidia/versionnvidia의 버전이 여전히 이전 116임을 알 수 있습니다(내가 해결했기 때문에 지금은 새로운 것이고, 스크린샷이 제공되지 않음) 확인된 추측입니다.
그래서 다음으로 최대한 재설치를 하지 않는 것을 원칙으로 해보았습니다.
먼저 재시작 시 진입할 커널의 하위 버전을 선택 후 nvidia-smi를 실행하여

Failed to initialize NVML: Driver/library version mismatch

그리고 다시 실행하면 cat /proc/driver/nvidia/version경로를 찾을 수 없다고 표시되고 방법 1이 실패했습니다.
그런 다음 다음 두 명령을 시도하십시오.

sudo apt-get install dkms
sudo dkms install -m nvidia -v 525.125.06

이 nvidia의 버전 번호는 로 ls /usr/src볼 수 있습니다
여기에 이미지 설명 삽입
.보통 70~80%의 사람들이 nvidia-smi이 단계 후에 실행한 후 성공적으로 표시할 수 있습니다. 하지만 여전히 할 수 없습니다. 두 번째 문장을 실행하여 내가 설치했음을 보여줍니다.

Module nvidia/525.125.06 already installed on kernel 5.xxx-xx-generic/x86_64

그러니 계속하세요.
마지막으로 바이오스에 들어가서 보안 부팅을 끄고 작동했습니다.

추천

출처blog.csdn.net/weixin_45354497/article/details/131588047