Neural Network(6)-Back Propagation related problems, Generation and Overfitting

其他 2020-05-18 13:10:38 阅读次数: 0

BP 训练中的实际问题

1. Review
2. Practical issuses

2.1 Sequencial or random presentation
2.2 Initialization of Network
2.3 Hidden Layers
2.4 停止条件 Stopping Criteria
2.5 学习速率
2.6 Momentum

3. 泛化和过拟合 Generalization & Overfitting

3.1 基本介绍
3.2 为什么过拟合
3.3 怎么解决过拟合 Techniques to overcome overfitting

1. Review

On-line learning = incremental learning
Off-line learning = Batch learning
BP 中的B为增益其中隐藏层的增益是根据输出层的增益算的

2. Practical issuses

2.1 Sequencial or random presentation

Epoch 是训练的基础单元(即所有的训练单元跑一遍)
在一个训练中如果是incremental训练那么随机的example会有较好的结果

2.2 Initialization of Network

与其他的网络不同神经网络的初始状态时随机化的
网络的权重初始在-0.5到0.5的区间内
输入经常被标准化到0到1范围内
即使在一样的学习条件下由于初始权重的不同训练结果也会不同
合适的训练条件会让训练过程更快结果更好

2.3 Hidden Layers

Additional layer 不会增加代表能力对于区分来说 representative power for discrimination.
两层的layer更强但是一层对于绝大多数问题都已经够用了并且更快
经验法则:
一层网络with n neural unit n=(input+output)/2

2.4 停止条件 Stopping Criteria

RMS (root mean square) is lower at the threshold at the end of the epoch
最大的epoch数达到了
使用验证集较早停止

2.5 学习速率

学习速率太小会导致收敛过慢并且有可能调入局部最小挑不出来.
学习速率太大尽管进程很快但是结果更多的会在较差的结果间震荡.
所以我们要挑能使网络收敛的学习率中最大的，这样如果陷入局部最小值学习率大可能会帮助跳出或跳过低谷.

2.6 Momentum

动量是用于稳定权重的变化，通过梯度负方向与之前权重的变化组合实现
效果是使权重趋向于沿着之前改变的方向运行，若相同则相当于加大了学习速率，若相反则能使权重相对平稳不至于大幅度动荡.
注意若a=0 则和之前的完全相同(学习速率为1)
若a=1则权重前进方向完全取决去之前的方向不会有其他改变
a的值一般在0.6~0.9
Momentum 的作用:
(1). 使权重的改变更为平滑, 去向错误山谷上的边到边震荡
(2). 当权重改变相同时动量增加了学习速率使收敛更快
(3). 使能够逃出局部最小值的陷阱(和较大的学习速率一个概念)

3. 泛化和过拟合 Generalization & Overfitting

3.1 基本介绍

泛化:
网络应该有能力把学到的东西应用到相似的问题上或所有数据上(all population）
过拟合:
过拟合意味着训练数据的误差很小但是一个新的数据引入后相应的误差很高, 换言之网络记住了所有训练数据但是没学会怎么应用学到的东西.

左图是从训练数据层面看，右图是从network performance 方向看( 黄色的为测试集, 红色为训练集)

3.2 为什么过拟合

Common reason: 自由参数的数量大于给定的训练数据
用尽量少的free parameters 去解决问题
用大小刚好的网络(足够拟合), 换言之不要在小的网络足够用的情况下用大的

3.3 怎么解决过拟合 Techniques to overcome overfitting

Weight Decay:

Large weights can hurt generalization in two different ways:
(1). 隐藏层的权重过大可能会导致输出函数粗略并且很有可能不连续
(2). 另外过大的隐藏层权重会导致输出很奇怪远超给定输入(如果激活不bounded)
最重要的原因是, 权重大会导致很多输出在激活函数的平滑区域(导数是0)没有学习意义
The main risk with large weights is that the non-linear node outputs could be in one of the flat parts of the transfer function, where the derivative is zero. In such case the learning is irreversibly stopped
Validation:

我好笨只能好好学

原创文章 28 获赞 44 访问量 3811

关注私信

猜你喜欢

转载自blog.csdn.net/qq_42141943/article/details/105637734

Neural Network(6)-Back Propagation related problems, Generation and Overfitting

Neural Network(5)-MLP and Back Propagation Algorithm

反向传播(Back Propagation)与神经网络(Neural Network)

BP神经网络(Back Propagation Neural Network)算法原理推导与Python实现详解

Neural Network based on Eorr Back Propagation典型BP网络c++实现

Back-Propagation Neural Network BP反向传播网络算法

BP神经网络（Back Propagation Neural Network）Matlab简单实现

论文《Chinese Poetry Generation with Recurrent Neural Network》阅读笔记

论文笔记：DRAW: A Recurrent Neural Network For Image Generation

论文阅读Practical Block-wise Neural Network Architecture Generation

Network related

卷积神经网络+卷积神经网络的反向传播（Back Propagation in Convolutional Neural Networks）

深度学习（二）Back Propagation Network

neural network forward and backward propagation（前向传播和后向传播）

反向传播(Back Propagation)

Back Propagation：反向传播

Back Propagation算法

深度学习实践总结：Sentiment Classification & How To "Frame Problems" for a Neural Network

overfitting

机器学习论文笔记（二）：Practical Block-wise Neural Network Architecture Generation

LeNet：Handwritten Digit Recognition with a Back-Propagation Network

【论文精读】Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Solving Inverse Problems With Deep Neural Networks

反向传播 tensorflow back propagation

back propagation算法原理与实现

反向传播算法（back propagation）

paper解读：Decomposable Neural Paraphrase Generation

吴恩达深度学习 4-4 课后作业 Art Generation with Neural Network Transfer DL&amp;Art: Neural Style Transfer

WAS related

Neural Network

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)