简单理解梯度消失与梯度爆炸 - 代码天地

简单理解梯度消失与梯度爆炸

企业开发 2022-04-28 14:01:48 阅读次数: 0

这两种现象的触发原因都是由于网络层数比较多，导致梯度在逐层回传的时候累积出了问题。

梯度消失

接近输出层的网络层梯度更新较为正常，而越远(越接近输入层)，其权值更新会非常慢，此时对网络的学习相当于等价于只对后几层的学习，而前面层的权重可以认为约等于是固定的保持不变。

诱因可以发现sigmoid激活函数的导数如下：
在这里插入图片描述
可以发现其导数是不会大于0.25的，此时链式求导梯度回传过程中梯度是很可能逐渐变小的(取决于初始化权值的大小)，导致最后梯度约等于0，即"消失"。

可以考虑采用如下方法缓解梯度消失问题：

将sigmoid替换成ReLU(其导数只为0或1)
使用BatchNorm层(约束 $x$ 的取值从而防止sigmoid导数过小)
使用现代化网络设计(如ResNet的残差连接与LSTM的门结构)
优化权重初始化方式(如xavier)

梯度爆炸

接近输出层的网络层梯度更新较为正常，而越远(越接近输入层)，其权值波动会非常剧烈，此时网络训练不稳定。不过相对于梯度消失而言，梯度爆炸则不那么容易遇到，其解决方案如下：

梯度裁切(给梯度设定阈值)
权重正则化(L1正则化，L2正则化)
上述四种梯度消失的解决办法

推荐阅读

https://zhuanlan.zhihu.com/p/72589432

猜你喜欢

转载自blog.csdn.net/qq_40714949/article/details/122377079

简单理解梯度消失与梯度爆炸

梯度消失，梯度爆炸＿原因分析＿简单例子助理解

梯度消失和梯度爆炸理解

对于梯度消失和梯度爆炸的理解

梯度消失与梯度爆炸

梯度消失&&梯度爆炸

梯度消失 + 梯度爆炸

梯度爆炸与梯度消失

梯度消失&梯度爆炸

梯度消失，梯度爆炸

梯度消失或梯度爆炸

梯度消失、梯度爆炸

梯度消失梯度爆炸

梯度消失和梯度爆炸

梯度爆炸和梯度消失

梯度消失，梯度爆炸及表现

梯度消失与梯度爆炸问题

梯度消失、梯度爆炸笔记

RNN - 梯度消失与爆炸

梯度消失和爆炸

梯度消失和梯度爆炸的解答

深度学习中的梯度消失与梯度爆炸

[深度学习] 梯度消失与梯度爆炸

深度学习-梯度爆炸和梯度消失

梯度消失和梯度爆炸情况详解

梯度消失/梯度爆炸/初始化

梯度消失和梯度爆炸问题详解

RNN 梯度消失和梯度爆炸

梯度消失，梯度爆炸＿解决办法

梯度消失和梯度爆炸（待改进）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)