自己的一个理解,如果有误,请在留言处指出,万分感谢。
模型学习,不管是判别模型还是生成模型,都是学习训练数据集中特征 与 其输出 的后验概率 ,其实也就是直接学习或者间接学习的区别。
因此,我们的模型学到的是一个后验概率,为了防止出现学习过拟合的情况,我们通常会在损失函数后面加一个关于权重 的罚项,也叫正则项,这就是我们说的正则化方法。
而这个正则项,就相当于概率论中的先验知识。
比如掷骰子,我们用一个模型去预测 点数6 朝上的概率,每个骰子不同的面的表面质量是不均匀(这里拿那种用小洞洞做点数的骰子,毕竟洞的数量不一样),但是我们知道每个面朝上的概率在 左右,这是我们根据已知知识作出的先验假设,因此,当模型从仅含少量样本的数据集中学到 的 点数6 朝上的概率从而预测时,我们就知道模型存在问题,需要更改。
例子是我瞎扯的,主要是说明先验概率的意义
正则化就像是这种先验知识,当求解后验概率加上先验知识,就好像加了一种约束条件,让模型尽可能地符合客观规律。