从概率论的角度理解 正则化

自己的一个理解,如果有误,请在留言处指出,万分感谢。

模型学习,不管是判别模型还是生成模型,都是学习训练数据集中特征 X 与 其输出 Y 的后验概率 P ( Y | X ) ,其实也就是直接学习或者间接学习的区别。

因此,我们的模型学到的是一个后验概率,为了防止出现学习过拟合的情况,我们通常会在损失函数后面加一个关于权重 W 的罚项,也叫正则项,这就是我们说的正则化方法。

而这个正则项,就相当于概率论中的先验知识。

比如掷骰子,我们用一个模型去预测 点数6 朝上的概率,每个骰子不同的面的表面质量是不均匀(这里拿那种用小洞洞做点数的骰子,毕竟洞的数量不一样),但是我们知道每个面朝上的概率在 1 / 6 左右,这是我们根据已知知识作出的先验假设,因此,当模型从仅含少量样本的数据集中学到 5 / 6 的 点数6 朝上的概率从而预测时,我们就知道模型存在问题,需要更改。

例子是我瞎扯的,主要是说明先验概率的意义

正则化就像是这种先验知识,当求解后验概率加上先验知识,就好像加了一种约束条件,让模型尽可能地符合客观规律。

猜你喜欢

转载自blog.csdn.net/machinerandy/article/details/79604075
今日推荐