MLE,MAP和贝叶斯推断

机器学习理论中有一些基本的模型是被反复使用的,了解这些模型对于学习不同的算法十分重要,下面我们对常见的三个模型MLE(最大似然估计),MAP(最大后验概率)和贝叶斯推断做简单的介绍。

机器学习的基本问题

假设我们数据集X,其中每单个数据 xi 都是 i.i.d(独立同分布)的:

                                                        

x可以理解为随机变量,其服从某个具有参数\theta的分布。如果我们要依靠该模型去做预测,一个有效的途径就是先通过数据获取\theta的信息。那么我们有什么样的方法获取\theta的信息呢?

MLE(Maximum Likelyhood Expectation)

依据频率学派统计学家的观点,\theta是一个固定的值,那么依据这样的参数产生数据集 X 的概率应该是非常大的。也就是说我们可以考虑找到这样一个\theta,使得似然概率概率最大化:

                                                             

我们把这样的\theta表示为。我们知道,由于x是i.i.d的,所以联合概率分布可以表示为:

                                                          

由于连乘符号相比连加符号没有那么容易处理,所以我们往往会使用对数联合概率L:

                                          

那么MLE的解可以表示为:

                                               

MAP(Maximum a Posteriori)

在介绍最大后验概率之前,我们先回顾下贝叶斯定理。

                                    

或者也可以写为:

                                       

后验概率,似然概率和先验概率我们已经在其他博客中说明,这里prob(X)我们称之为 evidence。

MAP和MLE不同,后者考虑的是使似然概率最大化,而前者考虑的是使参数的后验概率最大化,且在MAP中,我们假定参数\theta服从某种先验分布。所以MAP算法如下:

                            

当然,如果换成对数方式求解会更加方便:

                                   

MLE和MAP的区别于联系

MLE的计算完全依赖于数据,相对MLE来说有更可能会过度拟合;对应的,MAP由于引入了先验只是,过拟合的可能更小,但是,如果要获取更好的泛化能力,先验概率的选择也是非常重要的,而先验概率的选择就要依靠人员的经验,从而增加了操作的复杂度。

贝叶斯推断

根据前面小节的描述,我们可以看出,无论是MLE还是MAP其最终目的都是要求出一个最优的参数\theta。而贝叶斯推断要做的是求出整个后验概率:

                                          

也就是说我们依然需要引入先验概率。但是有人会说,这不是和MAP的求法是一样的吗?当然不是,MAP由于要求的最优的参数\theta,所以我们对于evidence的求解可以忽略。但是如果要后验概率的表达式,evidence是必须要求得的,当然这也是贝叶斯推断的一个难点。

                                           

evidence可以利用以上公式计算,如果利用解析的方法计算往往会非常复杂,尤其是对于高维概率分布。这时候我们会引入其它的一些求解方法,比如MCMC和重要采样等等。

参考资料:

[1] prml 第一章

[2] ML, MAP, and Bayesian — The Holy Trinity of Parameter Estimation and Data

猜你喜欢

转载自blog.csdn.net/xiaomeng29/article/details/88958576