pytorch必须掌握的的4种学习率衰减策略 https://zhuanlan.zhihu.com/p/93624972
一般来说,我们希望在训练初期学习率大一些,使得网络收敛迅速,在训练后期学习率小一些,使得网络更好的收敛到最优解。下图展示了随着迭代的进行动态调整学习率的4种策略曲线:
torch代码解析 为什么要使用optimizer.zero_grad() https://blog.csdn.net/scut_salmon/article/details/82414730
Pytorch:model.train()和model.eval()用法和区别,以及model.eval()和torch.no_grad()的区别 https://blog.csdn.net/qq_38410428/article/details/101102075
pytorch中的torch.squeeze()函数 https://blog.csdn.net/abc781cba/article/details/79663190