Pytorch 为什么每一轮batch需要设置optimizer.zero_grad

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiaoxifei/article/details/83474724

CSDN上有人写过原因,但是其实写得繁琐了。

根据pytorch中的backward()函数的计算,当网络参量进行反馈时,梯度是被积累的而不是被替换掉;但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积,因此这里就需要每个batch设置一遍zero_grad 了。

关于这一点可以参考:https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/3

关于backward()的计算可以参考:https://discuss.pytorch.org/t/how-to-use-the-backward-functions-for-multiple-losses/1826/5

猜你喜欢

转载自blog.csdn.net/xiaoxifei/article/details/83474724