原因1:cuda和pytorch版本不一致
检查版本是否一致:
python3
import torch
import torchvision
print(torch.cuda.is_available())
运行结果:
如果是False,则去pytorch官网下载对应版本。例如cuda11.3+pytorch11.0:
pip install torch==1.11.0+cu113 torchvision==0.12.0+cu113 torchaudio==0.11.0 --extra-index-url https://download.pytorch.org/whl/cu113
原因2:不知名原因
在代码中import torch
后加入:
torch.backends.cudnn.enabled = True
torch.backends.cudnn.benchmark = True
还不行就把第一条换成False
。(原理我也不知道,有时候有用hhh)
原因3:设备和不支持当前cuda版本
我采用A100-SXM4-80GB * 1卡
训练时用cuda10.1
又慢又报错,重装了cuda11.3
就解决了
原因4:显卡不够
换个更大(贵)的卡