机器学习理论中有一些基本的模型是被反复使用的,了解这些模型对于学习不同的算法十分重要,下面我们对常见的三个模型MLE(最大似然估计),MAP(最大后验概率)和贝叶斯推断做简单的介绍。
机器学习的基本问题
假设我们数据集X,其中每单个数据 xi 都是 i.i.d(独立同分布)的:
x可以理解为随机变量,其服从某个具有参数的分布。如果我们要依靠该模型去做预测,一个有效的途径就是先通过数据获取的信息。那么我们有什么样的方法获取的信息呢?
MLE(Maximum Likelyhood Expectation)
依据频率学派统计学家的观点,是一个固定的值,那么依据这样的参数产生数据集 X 的概率应该是非常大的。也就是说我们可以考虑找到这样一个,使得似然概率概率最大化:
,
我们把这样的表示为。我们知道,由于x是i.i.d的,所以联合概率分布可以表示为:
由于连乘符号相比连加符号没有那么容易处理,所以我们往往会使用对数联合概率L:
那么MLE的解可以表示为:
MAP(Maximum a Posteriori)
在介绍最大后验概率之前,我们先回顾下贝叶斯定理。
或者也可以写为:
后验概率,似然概率和先验概率我们已经在其他博客中说明,这里prob(X)我们称之为 evidence。
MAP和MLE不同,后者考虑的是使似然概率最大化,而前者考虑的是使参数的后验概率最大化,且在MAP中,我们假定参数服从某种先验分布。所以MAP算法如下:
当然,如果换成对数方式求解会更加方便:
MLE和MAP的区别于联系
MLE的计算完全依赖于数据,相对MLE来说有更可能会过度拟合;对应的,MAP由于引入了先验只是,过拟合的可能更小,但是,如果要获取更好的泛化能力,先验概率的选择也是非常重要的,而先验概率的选择就要依靠人员的经验,从而增加了操作的复杂度。
贝叶斯推断
根据前面小节的描述,我们可以看出,无论是MLE还是MAP其最终目的都是要求出一个最优的参数。而贝叶斯推断要做的是求出整个后验概率:
也就是说我们依然需要引入先验概率。但是有人会说,这不是和MAP的求法是一样的吗?当然不是,MAP由于要求的最优的参数,所以我们对于evidence的求解可以忽略。但是如果要后验概率的表达式,evidence是必须要求得的,当然这也是贝叶斯推断的一个难点。
evidence可以利用以上公式计算,如果利用解析的方法计算往往会非常复杂,尤其是对于高维概率分布。这时候我们会引入其它的一些求解方法,比如MCMC和重要采样等等。
参考资料:
[1] prml 第一章
[2] ML, MAP, and Bayesian — The Holy Trinity of Parameter Estimation and Data