MLE，MAP和贝叶斯推断

机器学习理论中有一些基本的模型是被反复使用的，了解这些模型对于学习不同的算法十分重要，下面我们对常见的三个模型MLE（最大似然估计），MAP（最大后验概率）和贝叶斯推断做简单的介绍。

机器学习的基本问题

假设我们数据集X，其中每单个数据 xi 都是 i.i.d（独立同分布）的：

x可以理解为随机变量，其服从某个具有参数 $\theta$ 的分布。如果我们要依靠该模型去做预测，一个有效的途径就是先通过数据获取 $\theta$ 的信息。那么我们有什么样的方法获取 $\theta$ 的信息呢？

依据频率学派统计学家的观点， $\theta$ 是一个固定的值，那么依据这样的参数产生数据集 X 的概率应该是非常大的。也就是说我们可以考虑找到这样一个 $\theta$ ，使得似然概率概率最大化：

，

我们把这样的 $\theta$ 表示为。我们知道，由于x是i.i.d的，所以联合概率分布可以表示为：

由于连乘符号相比连加符号没有那么容易处理，所以我们往往会使用对数联合概率L：

那么MLE的解可以表示为：

在介绍最大后验概率之前，我们先回顾下贝叶斯定理。

或者也可以写为：

后验概率，似然概率和先验概率我们已经在其他博客中说明，这里prob(X)我们称之为 evidence。

MAP和MLE不同，后者考虑的是使似然概率最大化，而前者考虑的是使参数的后验概率最大化，且在MAP中，我们假定参数 $\theta$ 服从某种先验分布。所以MAP算法如下：

当然，如果换成对数方式求解会更加方便：

MLE的计算完全依赖于数据，相对MLE来说有更可能会过度拟合；对应的，MAP由于引入了先验只是，过拟合的可能更小，但是，如果要获取更好的泛化能力，先验概率的选择也是非常重要的，而先验概率的选择就要依靠人员的经验，从而增加了操作的复杂度。

根据前面小节的描述，我们可以看出，无论是MLE还是MAP其最终目的都是要求出一个最优的参数 $\theta$ 。而贝叶斯推断要做的是求出整个后验概率：

也就是说我们依然需要引入先验概率。但是有人会说，这不是和MAP的求法是一样的吗？当然不是，MAP由于要求的最优的参数 $\theta$ ，所以我们对于evidence的求解可以忽略。但是如果要后验概率的表达式，evidence是必须要求得的，当然这也是贝叶斯推断的一个难点。

evidence可以利用以上公式计算，如果利用解析的方法计算往往会非常复杂，尤其是对于高维概率分布。这时候我们会引入其它的一些求解方法，比如MCMC和重要采样等等。

参考资料：

[1] prml 第一章