MLDS笔记：Generalization

其他 2018-05-07 13:27:02 阅读次数: 6

1 泛化能力

图1-1
用VC维来衡量一个模型的表达能力，比如２维线性模型的VC维为３。
图1-2
在图1-2中，随便给啥训练数据该model都能learn起来。
从理论上来看，当２个model在训练数据上表现一样时，为了更好的泛化能力，应该选择表达能力更小的model。
这个结论是一定的吗？
图1-3
图1-4
图1-5
图1-6
图1-7
神经网络自带regularization吗？
图1-8
从图1-8可以看出，2到12层得到的线都是很平滑的。
如果让网络去拟合虚线，网络也是能够做到的，说明该网络有很大的模型表达能力，但是2到12层对应的线却没有形成虚线状。
可见神经网络没有我们想象的那么容易过拟合。
关于这点背后的原因，现在无最佳解答。一种说法是因为初始化在原点附近，梯度下降后得到的参数与原点也很近，所以使用基于梯度的优化方法得到的神经网络能够自带正规化。
总之，深度模型的表达能力是很强的，但是，它并没有我们想象中的那么容易过拟合，其中的原因尚不清楚。

2 泛化指标

一个神经网络有哪些特性可以使其不易过拟合？知道答案的话就可以在训练的时候将这些特性塞进去。

2.1 暴力记忆

神经网络的学习过程并不是暴力记忆。
虽然给定任意输入，神经网络都能learn起来，但是learn出的并不是同一个model。
图2.1-1
图2.1-2
图2.1-3

2.2 Sensitivity

如何定义Sensitivity？
图2.2-1

如图2.2-2和图2.2-3所示，训练数据出现处的Sensitivity通常较小，即自信度较高；训练数据未出现处的Sensitivity通常较大，即自信度较低。

2.3 Sharpness

图2.3-1
如何定义Sharpness？
有很多种定义方式，不限于下图。
图2.3-2
常small batch训练得到的minima泛化能力较好，关于背后原因，有一种说法是其较易找到较flat的minima。
图2.3-3
图2.3-4
图2.3-5
图2.3-6
总之，
1、泛化能力的好坏与Sensitivity的大小有关；
2、泛化能力的好坏与Sharpness的大小有关。
关于2的不同意见参见

Laurent Dinh, Razvan Pascanu, Samy Bengio, Yoshua Bengio, Sharp Minima Can Generalize For Deep Nets, PMLR, 2017

猜你喜欢

转载自www.cnblogs.com/cherrychenlee/p/9001412.html

MLDS笔记：Generalization

MLDS笔记：Optimization

MLDS笔记：浅层结构 vs 深层结构

【阅读笔记】ON THE IMPORTANCE OF SINGLE DIRECTIONS FOR GENERALIZATION

Understanding Deep Learning required Rethinking Generalization 笔记

MLDS Notes

李宏毅MLDS课程笔记9：Generative Adversarial Network(GAN)

机器学习基石笔记：06 Theory of Generalization

MLDS Lecture Notes

generalization error

【机器学习笔记六】------Theory of Generalization（一般化理论）

谷歌机器学习速成课程笔记 6（Generalization-泛化）

【台大林轩田《机器学习基石》笔记】Lecture 6——Theory of Generalization

论文阅读笔记：Seen to Unseen Exploring Compositional Generalization of Multi-Attribute Controllable Dialogu

CVPR2023活体检测Instance-Aware Domain Generalization for Face Anti-Spoofing学习笔记

集成学习之stacked generalization

The generalization-stability tradeoff in neural network pruning

Domain Generalization 领域泛化简单介绍

UML 部分图示（Association、Aggregation、Composition、Generalization、Realization...)

今我来思，堆栈泛化（Stacked Generalization）

机器学习基石 Lecture6: Theory of Generalization

机器学习基石06：泛化理论（Theory of Generalization）

Multi-Sample Dropout for Accelerated Trainingand Better Generalization

ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

论文阅读：Averaging Weights Leads to Wider Optima and Better Generalization

【ICLR 2023】Generalization Bounds for Federated Learning: Fast Rates, Unparticipating Clients

Self-Knowledge Distillation: A Simple Way for Better Generalization论文阅读

域泛化（Domain Generalization）相关知识学习

HCDG: A Hierarchical Consistency Framework for Domain Generalization on Medical Image Segmentat

Cross Domain，Domain Adaptation，Domain Generalization概念的解释

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)