贝叶斯估计使用概率作为信息的确信程度,认为数据集是直接可以观测的,所以不是随机的。而真实的参数是不确定的所以被表示成随机变量。
在观测数据之前,使用先验概率分布表示的信息。先验概率的选择是很宽泛的。
使用贝叶斯公式计算样本对参数的影响:
先验概率一般选择高斯分布或均匀分布都拥有很高的熵,通过观测的数据降低熵,并且集中选择参数最可能的值。且贝叶斯估计是基于的全分布来估计。例如观测过m个样本,第m+1个样本的预测是:
举例:使用贝叶斯估计处理线性回归
在线性回归中,我们要做的是基于给定的输入x来预测输出值y,预测算法是以向量w为参数:
我们选择高斯分布作为先验分布,有:
通过样本的观测,计算基于模型参数的后验分布:
定义
则后验分布可以写成高斯分布形式:
(图来自deep learning书)