错误示例:
训练过程中出现了nan,
train epoch 0] loss: 27.854: 6%|███████ | 7/126 [00:00<00:09, 12.64it/s]WARNING: non-finite loss, ending training tensor(nan, device='cuda:0', dtype=torch.float64, grad_fn=<MseLossBackward>)
[train epoch 0] loss: nan: 6%|███████▏
解决错误:
1、使用的学习率过大
减少学习率的同时需要适当减少batch,并增加epoch
2、你的数据有问题,检查数据集
如果你反复尝试改变学习率还是无济于事,那么一般就是你的训练数据集是有问题的,假如你是用的是有监督数据,那么看一下你的数据集是不是有标签是空的情况,我就出现了这个错误