机器学习基石笔记：06 Theory of Generalization - 代码天地

机器学习基石笔记：06 Theory of Generalization

其他 2019-03-28 17:28:05 阅读次数: 0

 
 若H的断点为k，即k个数据点不能被H给shatter，那么k+1个数据点也不能被H给shatter，即k+1也是H的断点。 

 
 如果给定的样本数N是大于等于k的，易得mH(N)<2N，且随着N的增大，小得越来越多。 

 
 当断点为k时，记最大可能的成长函数mH(N)为bound函数，记为B(N,k)。------只和N、k有关。 

 
 注意比较，发现bound函数比起成长函数消除了H。 

 
 如果无断点，自然没有B(N,k)什么事； 

 
 如果断点为k， 

 
 那么mH(N)是给定H下，可能的最大假设类数； 

 
 B(N,k)是不限H下，可能的最大假设类数。 

 
 B(N,k)=maxH 
  mH(N)，只和样本数N和断点k有关。 

 
 注意：这里的H要求有相同的k。 

 
 通过数学归纳法可证得：B(N,k)实际被Nk-1所框住，既然成长函数的上限被N的多项式给框住，易得，如果断点存在的话，成长函数也是多项式型的。 

 
 ------证明了上一节的猜想。 

 
 再看保证Ein和Eout的不等式， 

 
 证明， 

 
 1.用和训练集同样大小的测试集上的表现替代整体输入空间上的表现，认为使得训练集内和整体表现差异过大的坏数据也会使得训练集和测试集上的表现差异过大； 

 
 这里做了2件事： 

 
 一是用有限的训练集+有限的测试集替代了无限的输入空间，将无限的X变为数量为2N的有限数据集； 

 
 二是用完美划分该有限数据集的模式f'代替了完美划分整个输入空间的模式f。------进行了松弛，因为f'的数量多于f。 

 
 2.用有限类数mH(2N)替代无限|H|； 

 
 3.使用不放回的霍夫丁不等式。 

 
 对应于在取小球实验里不放回地抽取，取出的橘色小球频率和罐子里剩余的橘色小球概率依旧概率近似相等。------因为 the inequalities also hold when the Xi have been obtained using sampling without replacement; in this case the random variables are not independent anymore.（来自维基百科） 

 
 得到VC bound。 

 
 所以， 

 
 2维感知器算法在训练集D上学习到的g泛化到整个输入空间X上是概率近似可行的。 

 
 那3维及以上感知器算法呢？ 

猜你喜欢

转载自www.cnblogs.com/cherrychenlee/p/7562463.html

机器学习基石笔记：06 Theory of Generalization

机器学习基石06：泛化理论（Theory of Generalization）

机器学习基石 Lecture6: Theory of Generalization

【台大林轩田《机器学习基石》笔记】Lecture 6——Theory of Generalization

【机器学习笔记六】------Theory of Generalization（一般化理论）

MLDS笔记：Generalization

集成学习之stacked generalization

【阅读笔记】ON THE IMPORTANCE OF SINGLE DIRECTIONS FOR GENERALIZATION

Understanding Deep Learning required Rethinking Generalization 笔记

机器学习基石笔记

域泛化（Domain Generalization）相关知识学习

generalization error

机器学习 ---误差理论（Error Theory）

机器学习基石笔记01

机器学习基石笔记：14 Regularization

机器学习基石笔记：15 Validation

机器学习基石笔记1

谷歌机器学习速成课程笔记 6（Generalization-泛化）

A mathmatical theory of communication阅读笔记（2）

A mathmatical theory of communication阅读笔记（1）

机器学习基石笔记（一）：学习的问题

机器学习基石笔记（三）：学习的类型

机器学习基石笔记（四）：学习的可行性

基本机器学习面试问题 --- Algorithms/Theory

台湾大学机器学习基石笔记整理

机器学习基石笔记 Lecture 3 - Types of Learning

机器学习基石笔记 Lecture 2: Learning to Answer Yes/No

机器学习基石笔记 Lecture 1: The Learning Problem

Coursera机器学习基石笔记week4

Coursera机器学习基石笔记week3

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)