训练过程--BN和RELU的trick

  ReLU对于0的输出的梯度为0, 所以一旦陷入了0输出, 就没法恢复了。

  过小的 feature_size/kernel_size的比值会造成BN的统计值不稳定;kernel_dim 过小的时候, 加ReLU 容易使得整个kernel退化成空白。
  BN在最后的时候会fix,然后再训练5~10W次。

猜你喜欢

转载自blog.csdn.net/wydbyxr/article/details/84852098