版权声明：本文为博主原创文章，未经博主允许不得转载。作为分享主义者(sharism)，本人所有互联网发布的图文均采用知识共享署名 4.0 国际许可协议(https://creativecommons.org/licenses/by/4.0/)进行许可。转载请保留作者信息并注明作者Jie Qiao专栏:http://blog.csdn.net/a358463121。商业使用请联系作者。 https://blog.csdn.net/a358463121/article/details/78067526

贝叶斯推断简介

这篇文章将带你在高处俯瞰贝叶斯的风景。世界是确定的还是随机的？或许穷尽一生我也无法找到答案，但这并不妨碍我们去领略这两个世界风景啊。频率学派认为参数是一个确定的常数，而贝叶斯则认为参数是一个随机变量，本文要讲的正是使用贝叶斯推断的方法，在这不确定的世界中探索。

为了说明贝叶斯的相关问题我们看下面的这个例子

y = w x

$y=wx$
这例子很简单，在这里我们假设参数

w $w$ 服从某个先验分布

p(w) $p(w)$ 它对应的超参为

α $\alpha$ ，所以这个先验分布也可以写作

p(w|α) $p(w|\alpha)$ .

极大似然估计(MLE)

所谓最大似然就是求解以下似然函数，

arg max w p (y | x, w)

$\arg\max_wp(y|x,w)$
使得似然函数最大的

w $w$ 就是我们要的值

通常极大似然估计会给我们提供很不错的性质，比如说有：

一致性(consistent)，随着样本趋于无穷大收敛
有效性(efficient)

然后我们通常样本数量都是有限的，有些时候不符合常理，容易导致过拟合

最大后验(MAP)

我们假设随机变量w有个先验分布p(w)

我们可以通过贝叶斯准则来最大化我们的后验概率：

arg max w log p (y | x, w) + log p (w)

$\arg\max_w\log p(y|x,w)+\log p(w)$
比如说对于岭回归我们有最大化后验概率，从而求得w：

arg max w | | X w - y | | 2 + | | w | | 2 / α

$\arg\max_{w}||Xw-y||^2+||w||^2/\alpha$

贝叶斯推断

贝叶斯方法通常考虑的是整个后验概率（这意味着我们不会因为与w无关而忽略掉贝叶斯公式中的归一化项）：

扫描二维码关注公众号，回复： 3686237 查看本文章

p (w | y, x) = p ( y | x , w ) p ( w ) p ( y | x )

$p(w|y,x)=\frac{p(y|x,w)p(w)}{p(y|x)}$
我们在预测的时候，并不像最大似然方法那样，我们估计得到一个权重w，然后根据这个w计算y的值。而是对整个w的概率分布进行求积分，这意味着我们考虑了w所有的取值，以及这些取值对应的概率。

p (y * | x *, y, x) = \int p (y * | x *, w) p (w | y, x) d w

$p(y^*|x^*,y,x)=\int p(y^*|x^*,w)p(w|y,x)dw$
(贝叶斯求积分，而不求最大值)

边缘似然度 Marginal likelihood

边缘似然度是贝叶斯公式里面的分母，也就是归一化项：

p (y | x) = \int p (y | x, w) p (w) d w

$p(y|x)=\int p(y|x,w)p(w)dw$
现在，一个给定假设或模型条件下数据的似然度，我们称为”证据(evidence)”而不是似然度：

p (y | x, H 0) = \int p (y | x, w) p 0 (w) d w p (y | x, H 1) = \int p (y | x, w) p 1 (w) d w

$p(y|x,H_0)=\int p(y|x,w)p_0(w)dw\\ p(y|x,H_1)=\int p(y|x,w)p_1(w)dw$
上面就是两个不同模型的证据。

那么有了模型证据后，我们就可以进行模型选择了，比如说选择H1还是选择H0，这里有两种方法可以完成：

选择那个可以最大化边缘似然度的模型 $H_i$ ，这需要对所有超参进行积分
最优化H的超参使得后验最大或似然度最大从而避免积分减少计算复杂度（第二类最大似然法，或第二类最大后验）

贝叶斯推断的三个层次

一个完整的贝叶斯推断可以分为三个层次。在顶层（第一层）的是模型 $H$ 的后验概率，第二层是超参 $\alpha$ 的后验概率，底层是参数 $w$ 的后验概率。相对应的，最大化似然（后验）方法就作用在底层，他通过最大似然求解参数 $w$ 的值，第二类最大似然（后验）就是作用在第二层，去最大化超参。

在最底层是关于参数w的后验

p (w | y, x, α, H i) = p ( y | x , w , H i ) p ( w | α , H i ) p ( y | x , α , H i )

$p(w|y,x,\alpha,H_i)=\frac{p(y|x,w,H_i)p(w|\alpha,H_i)}{p(y|x,\alpha,H_i)}$
其中

p(y|x,w,Hi) $p(y|x,w,H_i)$ 就是我们熟悉的似然函数，而

p(w|α,Hi) $p(w|\alpha,H_i)$ 就是参数w的先验，而

α $\alpha$ 是w的超参，

Hi $H_i$ 表示的是这个模型，这个模型的意思，用一个例子来说明就是，一个多项式拟合的问题，我们需要确定多项式的阶数进行拟合，那么不同的阶数就对应着不同的模型。

在上面的贝叶斯公式中，里面的分母，我们称为边缘似然度或证据(evidence)它可以通过以下全概率公式来计算

p (y | x, α, H i) = \int p (y | x, w, H i) p (w | α, H i) d w

$p(y|x,\alpha,H_i)=\int p(y|x,w,H_i)p(w|\alpha,H_i)dw$
通过这个公式我们就可以感受到贝叶斯的威力了，他跟传统的极大似然估计的不一样，他在归一化系数中，把整个w在参数空间上积分掉，也就是说把每个参数w的取值都考虑了进去，这给予了它能自动平衡拟合精度与复杂度的能力。接下来我们就可以写出第二层的贝叶斯公式，在第二层里面，边缘似然度是作为似然度函数来计算的。

p (α | y, x, H i) = p ( y | x , α , H i ) p ( α | H i ) p ( y | x , H i )

$p(\alpha|y,x,H_i)=\frac{p(y|x,\alpha,H_i)p(\alpha|H_i)}{p(y|x,H_i)}$
其中

p(α|Hi) $p(\alpha|H_i)$ 是超参的先验分布。他的归一化项是：

p (y | x, H i) = \int p (y | x, α, H i) p (α | H i) d α

$p(y|x,H_i)=\int p(y|x,\alpha,H_i)p(\alpha|H_i)d\alpha$
现在，我们可以写出第一层的贝叶斯公式了，第一层就是我们模型的后验概率

p (H i | y, x) = p ( y | x , H i ) p ( H i ) p ( y | x )

$p(H_i|y,x)=\frac{p(y|x,H_i)p(H_i)}{p(y|x)}$
其中归一化项为

∑ip(y|x,Hi)p(Hi) $\sum_ip(y|x,H_i)p(H_i)$ 。也就是说，我们在使用贝叶斯推断的时候，我们的目标就是计算模型的后验概率，在第一层的公式中，可以直观地看到这个模型的后验概率其实就是在所有可能取到的模型中，

Hi $H_i$ 成立的概率。然而，如果我们进行一次完整的贝叶斯推断，我们需要计算好几个积分，而且这些积分都不一定有解析解，这时候我们就需要采用一些近似的方法去完成

这里给个可以用于求积分方法的列表：

数值积分 (只对低维有效)
共轭先验 conjugate priors (Gaussian likelihood w/ GP prior)
子集方法 subset methods (Nystrom)
快速线性代数 fast linear algebra (Krylov, fast transforms, KD-trees)
变分方法 variational methods (Laplace, mean-field, EP)
蒙特卡洛方法 Monte Carlo methods (Gibbs, MH, particle)

在实际中，特别是 $p(y|x,H_i)$ 它的积分计算往往很困难的，虽然我们会引入超参数 $\alpha$ ，然后对超参数以及参数w求积分的方式做预测。但是，虽然我们可以解析地求出对w的积分或者求出对超参数的积分，但是对所有这些变量完整地求积分是没有解析解的，因此，我们会求出使得边缘似然度 $p(y|x,\alpha,H_i)$ 最大化的超参 $\alpha$ 来近似它。这也被称为第二类极大似然(type II maximum likelihood ,ML-II)，要小心的是，这样对超参进行优化是有可能导致过拟合，特别是当超参的数量特别多的时候。

另外，我们在计算数据的似然度 $p(y|x,H_i)$ 的时候，可以用拉普拉斯近似来计算，事实上BIC评分就是这个似然度使用拉普拉斯近似的结果。拉普拉斯近似在超参 $\alpha$ 较为平缓的时候效果会很好，在实际上这也常常成立。

在顶层的式子中,模型是先验 $p(H_i)$ 我们通常认为他也是平缓的，也就是说，不偏好与任何一个模型，那么这样的话，第一层和第二层就是成正比的关系了。

第二类最大似然(type 2 maximum likelihood)

我们先回顾一下，我们求最大似然的时候就是似然函数的最大值从而得到我们的参数w

arg max w p (y | x, w)

$\arg\max_w p(y|x,w)$

同理，求最大后验也是求一个w使得后验概率最大：

arg max w p (y | x, w) p (w)

$\arg\max_w p(y|x,w)p(w)$
那么第二类极大似然跟普通版的极大似然不一样的地方在于，我们在求极大似然的时候并不是求w，而是求w的先验分布的超参

α $\alpha$ ：

arg max α p (y | x, α) = arg max α \int p (y | x, w) p (w | α) d w

$\arg\max_\alpha p(y|x,\alpha)=\arg\max_\alpha\int p(y|x,w)p(w|\alpha)dw$
很显然这个似然函数以前不是以前给定w下的似然度了，而是给定超参

α $\alpha$ 下的似然度了。

其实除了第二类最大似然，他还有很多名字….比如说经验贝叶斯(empirical Bayes),推广的最大似然(generalized maximum likelihood),证据近似(evience approximation)。

第二类最大后验

第二类最大后验也是一样的，我们在极大似然的基础上考虑了超参 $\alpha$ 的分布：

arg max α p (y | x, α) p (α)

$\arg\max_\alpha p(y|x,\alpha)p(\alpha)$
在高斯过程中我们一般使用第二类最大似然来确定高斯过程协方差中的超参。

参考资料

https://www.cs.ubc.ca/~schmidtm/MLRG/GaussianProcesses.pdf
Bishop, Christopher M. Pattern recognition and machine learning. springer, 2006.第三章
Rasmussen, Carl Edward, and Christopher KI Williams. Gaussian processes for machine learning. Vol. 1. Cambridge: MIT press, 2006.第五章
Robert, Christian. “Machine Learning, a Probabilistic Perspective.” (2014): 62-63.第五章

作为分享主义者(sharism)，本人所有互联网发布的图文均遵从CC版权，转载请保留作者信息并注明作者a358463121专栏:http://blog.csdn.net/a358463121，如果涉及源代码请注明GitHub地址：https://github.com/358463121/。商业使用请联系作者。