最大似然估计和最大后验概率估计(MLE&MAP)

0.相关概念

数据:X

参数:theta

假设概率模型为:x~p(x|theta) 【xi服从于p(x|theta),并且是独立同分布(iid)】

明确先验、后验和似然的概念:

似然(likelihood):p(X|theta)

先验(prior):p(theta):(随机变量)参数theta所服从的分布

后验(posterior):p(theta|X):

问题:参数估计问题,也就是求theta的值。

关于这个问题频率派常用最大似然估计方法(MLE),贝叶斯派常用最大后验估计方法(MAP)

1.频率派的特点是将theta作为常量;X作为随机变量。常用最大似然估计(MLE)进行参数估计。MLE步骤为:

①首先搭建模型,

②然后将模型转化为优化问题(有 loss function)

③然后用不同的优化算法求解(比如梯度下降法,牛顿法等等)

代价函数为观测集的概率

因为是独立同分布,所以观测集概率可表示为连乘

最大对数似然估计(MLE)方法求解theta:【加上log是为了将连乘转化为,方便运算。通过求解最大似然估计得到theta的值

 

2.贝叶斯派的特点是将theta作为随机变量【theta~p(theta)】;X也作为随机变量。常用最大后验概率估计(MAP)进行参数估计。MAP步骤为:

①用贝叶斯定理将求解后验概率转化为求解似然和先验的积分问题:【 贝叶斯定理是用似然和先验求解后验的过程。】

②最大后验概率方法求解theta的值:

3.引申:

频率派后续引出一系列统计机器学习的方法,主要步骤为搭建模型,构造损失函数(loss funcion),选取优化算法进行优化,本质是优化问题。

贝叶斯派后续引出一些列概率图模型,主要是用数值方法求积分,因为在参数空间中求积分,所以转而寻找用概率图求积分的方法,常用MCMC、蒙特卡洛等方法。

传统贝叶斯估计需要求积分:

将后验概率用于贝叶斯预测:【通过theta将x_new和X解构】

参考资料:

https://www.bilibili.com/video/BV1aE411o7qd?p=2 ,B站机器学习白板推导,作者:shuhuai008

猜你喜欢

转载自www.cnblogs.com/feynmania/p/12790504.html