深度学习：初始化 - 代码天地

深度学习：初始化

业界资讯 2023-07-28 21:32:20 阅读次数: 0

变量初始化

with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
#sess.run(tf.initialize_all_variables())

Note:

1 init = tf.global_variables_initializer()和with tf.Session() as sess:两句必须在一起使用，不能分开。

2 有时候需要使用 sess.run(tf.local_variables_initializer())

不初始化/初始化时分开使用/local初始化写成global初始化可能出现错误如：Attempting to use uninitialized value batch_normalization/beta。如下例：

init = tf.global_variables_initializer()

logits = tf.constant([[[0.3, 0.0, 0.5, 0.2],
[0.44, 0.32, 0.23, 0.01],
[-0.2, 0.6, 0.5, 0.1]],
[[0.4, 0.0, 0.0, 0.2],
[0.4, 0.2, 0.3, 0.01],
[0.2, -0.6, -0.5, 0.15]]])
a = tf.layers.batch_normalization(logits)
with tf.Session() as sess:
sess.run(init)
print(logits.eval())
print(a.eval())

RNN初始化

正交初始化（orthogonal initialize）

正交初始化：用以解决深度网络下的梯度消失、梯度爆炸问题，在RNN中经常使用的参数初始化方法。

实现代码

def orthogonal(shape):

flat_shape = (shape[0], np.prod(shape[1:]))

a = np.random.normal(0.0, 1.0, flat_shape)

u, _, v = np.linalg.svd(a, full_matrices=False)

q = u if u.shape == flat_shape else v

return q.reshape(shape)

[正交初始化（orthogonal initialize）]

解决梯度问题的分析

参数矩阵特征值λi

如果|λi|>1，则步数增加时λt超出浮点范围，发生梯度爆炸，优化无法收敛；
如果|λi|<1，步数增加时λt变为0，发生梯度消失，优化停滞不前。

理想的情况是，特征值绝对值为1。则无论步数增加多少，梯度都在数值计算的精度内。这样的参数矩阵W是单位正交阵。把转移矩阵初始化为单位正交阵，可以避免在训练一开始就发生梯度爆炸/消失现象，称为orthogonal initialization。

具体参考[RNN的梯度消失/爆炸与正交初始化]

梯度爆炸/消失在rnn参数矩阵的可视化展示[Explaining and illustrating orthogonal initialization for recurrent neural networks]

其他解决方法

除了正交初始化，在RNN类型网络训练中，还可以使用如下方法解决梯度消失/爆炸问题：
- 使用ReLU激活函数->解决梯度消失
- 对梯度进行剪切（gradient clipping）->解决梯度爆炸
- 引入更复杂的结构，例如LSTM、GRU->解决梯度消失

from: -柚子皮-

ref:

猜你喜欢

转载自blog.csdn.net/pipisorry/article/details/98639039

深度学习：初始化

深度学习-初始化权重矩阵

深度学习中的参数初始化

【深度学习】初始化笔记

[深度学习] 网络参数初始化

【深度学习】权重初始化

深度学习中Xavier初始化

深度学习笔记-参数初始化

深度学习之参数初始化

【深度学习】初始化参数

深度学习的Xavier初始化方法

深度学习的几种权重初始化

深度学习的几种权重初始化

深度学习权重初始化

深度学习之权重初始化

【学习笔记】Pytorch深度学习-权值初始化

深度学习之参数初始化（一）——Xavier初始化

深度学习参数初始化（二）Kaiming初始化含代码

深度学习参数初始化（一）Xavier初始化含代码

【深度学习_2.1.1】神经网络参数初始化

深度学习之参数初始化策略

深度学习—梯度消失和爆炸、权重初始化

深度学习神经网络中权重的初始化

深度学习最佳实践系列——权重w初始化

深度学习笔记：1.11 权重初始化

深度学习模型参数初始化的方法

深度学习——神经网络权重初始化问题

深度学习－网络Xavier初始化方法

【深度学习】RNN的梯度消失/爆炸与正交初始化

深度学习-网络参数初始化Xavier与MSRA

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)