CS231n 7. Training Neural Networks II 训练神经网络 - 代码天地

CS231n 7. Training Neural Networks II 训练神经网络

其他 2018-09-22 14:41:12 阅读次数: 0

7.1 更好的优化

随机梯度下降（SGD）：在每次迭代中，选取一小部分训练样本，成为minibatch（小批量），用minibatch来估算误差总和L(W)和实际梯度wL(W).这种选取是随机的，当做对真实值期望的蒙特卡洛估计。

SGD存在的问题：
鞍点：既不是极大值点也不是极小值点的临界点
噪声项。。

优化算法：使网络更快收敛

SGD动量法：
加入动量项 $v_t$ 初始化为0

Nesterov法

RMSProp法

AdaGrad法：
title
有两个坐标轴，沿其中一个轴有很高的梯度，另一轴很小梯度，随着累加 $dx^2$ ，会在更新参数除一个很小的数，从而加速了在小梯度维度上的学习速率。
凸函数有利，因为adagrad法的学习率慢慢变小。

1e-7：为了除数不为0

Adam法：（默认使用此算法）
Adam
一开始second_moment很小，所以前几步结果很大，步长很大，可能就越过L极小值了

超参数设置：
学习率 learning rate：

学习率用什么值是最好的呢？
答：变成一个随时间变化的变量！
学习率衰减

先尝试不用衰减，观察loss曲线，看看在哪个地方开始衰减。

以上优化算法都是一阶优化算法

怎么做来减少训练和测试之间的误差差距呢？（差距过大过拟合）
答：模型集成
模型集成 Model Ensembles

7.2 正则化

提高性能，使网络更快收敛
title
第一项是能拟合匹配数据。

有正则化方法： L2正则化、dropout、batch normalization（常用）

dropout：正向传播过程中，在全连接层中，随机让某个神经元上的激活函数的结果置0.（有时也在卷积层，是随机把整个特征映射置0），然后在测试时被边缘化。
dropput避免了特征间的相互适应

训练中加入一些噪声，在测试时再将噪声边缘化（不是随机的了）。

7.3 迁移学习 Transfer Learning

不需要超大的样本集也能训练神经网络（因为样本数量少，易过拟合，所以要大的样本数）
下载预训练的模型，然后初始化部分模型/在数据上精调模型

猜你喜欢

转载自blog.csdn.net/eqiang8848/article/details/82255488

训练神经网络（CS231n 7. Training Neural Networks II）

CS231n 7. Training Neural Networks II 训练神经网络

CNN笔记（CS231N）——训练神经网络II（Training Neural Networks, Part 2）

CS231n课程笔记：Leture7 Training Neural Networks II

CNN笔记（CS231N）——训练神经网络I（Training Neural Networks, Part I）

[Lecture 7 ] Training Neural Networks II（训练神经网络II）

cs231n 学习 -- Lecture 6/7 Training Neural Networks

CS231n Convolutional Neural Networks (CNNs / ConvNets) 神经网络1

CNN笔记（CS231N）——循环神经网络（Recurrent Neural Networks）

CNN笔记（CS231N）——卷积神经网络（Convolutional Neural Networks）

CNN笔记（CS231N）——反向传播和神经网络（Backpropagation and Neural Networks）

【CS231n】Lecture 6：Training Neural Networks,Part 2

CS231n Lecture6-Training Neural Networks, part I学习笔记

CS231n课程笔记：Leture6 Training Neural Networks I

cs231n : Convolutional Neural Networks

Training Neural Networks, part II

cs231n__4.2 神经网络 Neural networks

MLCC笔记15 - 训练神经网络 (Training Neural Networks)

(Review cs231n) Training of Neural Network2

CS231n Convolutional Neural Networks for Visual Recognition

CS231n笔记 Lecture 4 Introduction to Neural Networks

CS231n: Lecture 10 | Recurrent Neural Networks

CS231n Lecture4-Introduction to Neural Networks

CS231n:Convolutional Neural Networks for Visual Recognition

cs231n 学习 -- Lecture 5 Convolutional Neural Networks

cs231n 学习 -- Lecture 4 Backpropagation and Neural Networks

谷歌机器学习速成课程笔记 15（Training Neural Networks -训练神经网络）

[Lecture 6 ] Training Neural Networks I（训练神经网络I）

Cs231n课堂内容记录-Lecture 7 神经网络训练2

CS231n Neural Nets notes 3 神经网络笔记3

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)