贝叶斯推断简介
这篇文章将带你在高处俯瞰贝叶斯的风景。世界是确定的还是随机的?或许穷尽一生我也无法找到答案,但这并不妨碍我们去领略这两个世界风景啊。频率学派认为参数是一个确定的常数,而贝叶斯则认为参数是一个随机变量,本文要讲的正是使用贝叶斯推断的方法,在这不确定的世界中探索。
为了说明贝叶斯的相关问题我们看下面的这个例子
这例子很简单,在这里我们假设参数
极大似然估计(MLE)
所谓最大似然就是求解以下似然函数,
使得似然函数最大的
通常极大似然估计会给我们提供很不错的性质,比如说有:
- 一致性(consistent),随着样本趋于无穷大收敛
- 有效性(efficient)
然后我们通常样本数量都是有限的,有些时候不符合常理,容易导致过拟合
最大后验(MAP)
我们假设随机变量w有个先验分布p(w)
我们可以通过贝叶斯准则来最大化我们的后验概率:
比如说对于岭回归我们有最大化后验概率,从而求得w:
贝叶斯推断
贝叶斯方法通常考虑的是整个后验概率(这意味着我们不会因为与w无关而忽略掉贝叶斯公式中的归一化项):
我们在预测的时候,并不像最大似然方法那样,我们估计得到一个权重w,然后根据这个w计算y的值。而是对整个w的概率分布进行求积分,这意味着我们考虑了w所有的取值,以及这些取值对应的概率。
(贝叶斯求积分,而不求最大值)
边缘似然度 Marginal likelihood
边缘似然度是贝叶斯公式里面的分母,也就是归一化项:
现在,一个给定假设或模型条件下数据的似然度,我们称为”证据(evidence)”而不是似然度:
上面就是两个不同模型的证据。
那么有了模型证据后,我们就可以进行模型选择了,比如说选择H1还是选择H0,这里有两种方法可以完成:
- 选择那个可以最大化边缘似然度的模型
Hi ,这需要对所有超参进行积分 最优化H的超参使得后验最大或似然度最大从而避免积分减少计算复杂度(第二类最大似然法,或第二类最大后验)
贝叶斯推断的三个层次
一个完整的贝叶斯推断可以分为三个层次。在顶层(第一层)的是模型
在最底层是关于参数w的后验
其中
在上面的贝叶斯公式中,里面的分母,我们称为边缘似然度或证据(evidence)它可以通过以下全概率公式来计算
通过这个公式我们就可以感受到贝叶斯的威力了,他跟传统的极大似然估计的不一样,他在归一化系数中,把整个w在参数空间上积分掉,也就是说把每个参数w的取值都考虑了进去,这给予了它能自动平衡拟合精度与复杂度的能力。接下来我们就可以写出第二层的贝叶斯公式,在第二层里面,边缘似然度是作为似然度函数来计算的。
其中
现在,我们可以写出第一层的贝叶斯公式了,第一层就是我们模型的后验概率
其中归一化项为
这里给个可以用于求积分方法的列表:
- 数值积分 (只对低维有效)
- 共轭先验 conjugate priors (Gaussian likelihood w/ GP prior)
- 子集方法 subset methods (Nystrom)
- 快速线性代数 fast linear algebra (Krylov, fast transforms, KD-trees)
- 变分方法 variational methods (Laplace, mean-field, EP)
- 蒙特卡洛方法 Monte Carlo methods (Gibbs, MH, particle)
在实际中,特别是
另外,我们在计算数据的似然度
在顶层的式子中,模型是先验
第二类最大似然(type 2 maximum likelihood)
我们先回顾一下,我们求最大似然的时候就是似然函数的最大值从而得到我们的参数w
同理,求最大后验也是求一个w使得后验概率最大:
那么第二类极大似然跟普通版的极大似然不一样的地方在于,我们在求极大似然的时候并不是求w,而是求w的先验分布的超参
很显然这个似然函数以前不是以前给定w下的似然度了,而是给定超参
其实除了第二类最大似然,他还有很多名字….比如说经验贝叶斯(empirical Bayes),推广的最大似然(generalized maximum likelihood),证据近似(evience approximation)。
第二类最大后验
第二类最大后验也是一样的,我们在极大似然的基础上考虑了超参
在高斯过程中我们一般使用第二类最大似然来确定高斯过程协方差中的超参。
参考资料
https://www.cs.ubc.ca/~schmidtm/MLRG/GaussianProcesses.pdf
Bishop, Christopher M. Pattern recognition and machine learning. springer, 2006.第三章
Rasmussen, Carl Edward, and Christopher KI Williams. Gaussian processes for machine learning. Vol. 1. Cambridge: MIT press, 2006.第五章
Robert, Christian. “Machine Learning, a Probabilistic Perspective.” (2014): 62-63.第五章
作为分享主义者(sharism),本人所有互联网发布的图文均遵从CC版权,转载请保留作者信息并注明作者a358463121专栏:http://blog.csdn.net/a358463121,如果涉及源代码请注明GitHub地址:https://github.com/358463121/。商业使用请联系作者。