【异常错误】nan错误:training tensor(nan, device=‘cuda:0‘, dtype=torch.float64, grad_fn=<MseLossBackward>

错误示例:

训练过程中出现了nan, 

train epoch 0] loss: 27.854:   6%|███████                                                                                                                       | 7/126 [00:00<00:09, 12.64it/s]WARNING: non-finite loss, ending training  tensor(nan, device='cuda:0', dtype=torch.float64, grad_fn=<MseLossBackward>)
[train epoch 0] loss: nan:   6%|███████▏                              

解决错误:

1、使用的学习率过大

减少学习率的同时需要适当减少batch,并增加epoch

2、你的数据有问题,检查数据集

如果你反复尝试改变学习率还是无济于事,那么一般就是你的训练数据集是有问题的,假如你是用的是有监督数据,那么看一下你的数据集是不是有标签是空的情况,我就出现了这个错误

猜你喜欢

转载自blog.csdn.net/weixin_43135178/article/details/133313549