Batch Normalization & Weight Initialization.

其他 2018-10-06 22:09:56 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/programmingfool5/article/details/82354234

Batch Normalization

因为在深度神经网络中随着训练得进行，每一个隐层的参数不断的发生变化导致每一层的激活函数的输入发生改变，这与机器学习领域的假设：训练数据和测试数据的同分布是不符合的。所以会造成以下的问题：

(如果不scaling) 激活输入值分布的偏移，导致数据向线性函数的取值区间的上下线两端靠近，导致梯度消失/爆炸的问题，这就是问什么会训练速度降低的原因。（可以采用小的learning rate改善）
如果不采用这种多层之间协调（学习均值和方差）更新的策略，而使用逐层的白化操作，即在每个梯度下降更新参数后重新标准化，那么一层中参数的变化会造成其他参数层的剧烈变化，那么学习算法会反复改变均值和方差（w发生了变化），然后再用标准化反复抵消这种变化，导致训练速度降低甚至无法收敛。

而BN算法就是（通过学习参数）将数据强行拉到均值为0，方差为1的比较标准的正态分布。但是这样子导致的问题是：只利用到了线性区域而导致深层无意义，使得模型的表达能力下降。为了保证非线性的获得，用y = scale*x + shift,将数据移动或者伸缩。

优势

这里写图片描述

Weight Initialization

https://www.leiphone.com/news/201703/3qMp45aQtbxTdzmK.html

猜你喜欢

转载自blog.csdn.net/programmingfool5/article/details/82354234

Batch Normalization & Weight Initialization.

Batch Normalization

batch normalization 与 layer normalization

Batch Normalization & Layer Normalization

深度学习方法（十六）：Batch Normalization及其变种——Layer Norm, Group Norm，Weight Norm等

Batch Normalization导读 Batch Normalization导读

MimicNorm-替代BN层显存降低20% | Weight Mean and Last BN Layer Mimic the Dynamic of Batch Normalization

对Batch Normalization的理解

Batch Normalization层

batch normalization 详解

解读Batch Normalization

Tensorflow实现Batch Normalization

论文之Batch Normalization

Batch Normalization 学习笔记

[Tensorflow] Batch Normalization实现

Batch Normalization原理

对Batch Normalization 的理解

Batch Normalization (BN)

Tensorflow Batch normalization函数

BN算法（Batch Normalization）

BN(Batch Normalization)

Batch Normalization Tensorflow代码

batch normalization 理解

Batch Normalization参考博客

简单的解释batch normalization

Batch Normalization详解

深度学习——Batch Normalization

【深度学习】 Batch Normalization

tensorflow 系列 batch normalization

学习笔记-batch normalization

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)