Batch Norm和Layer Norm的区别主要是在归一化计算的时候其计算方向不同,借用知乎上的一张图做理解。
转载自:batchNormalization与layerNormalization的区别 - 知乎