贝叶斯推断-要点整理

在上一篇文章中,我们提到了最大似然估计法 来在已知样本的情况下求分布的参数。这一次整理一下贝叶斯推断。

1 贝叶斯推断的介绍及公式

贝叶斯推断,据说是推论统计的一种方法,使用贝叶斯定理,能在有更多证据及信息时,更新特定假设的概率。当没有足够多的数据,而又想准确地获取预测信息时,它特别有用,目前我还不清楚为什么在这样的场景下它非常有用,先整理一下与其相关的内容,看看自己能否在这个过程中有更深的理解。

贝叶斯定理:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) = P ( A B ) P ( B ) = P ( B ∣ A ) ∗ P ( A ) P ( B ) \begin{aligned} P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(AB)}{P(B)}=\frac{P(B|A)*P(A)}{P(B)} \end{aligned} P(AB)=P(B)P(AB)=P(B)P(AB)=P(B)P(BA)P(A)

因此,我们可以推导出,参数 θ \theta θ的后验概率为:
Π θ ( t ∣ x ) = f X ( x ∣ t ) ∗ Π θ ( t ) f X ( x ) ( t 为 θ 的 一 个 取 值 ) \begin{aligned} \Pi_\theta(t|x)=\frac{f_X(x|t)*\Pi_\theta(t)}{f_X(x)}(t为\theta 的一个取值) \end{aligned} Πθ(tx)=fX(x)fX(xt)Πθ(t)tθ

并且通过概率分布可知:
f X ( x ) = ∫ Ⓗ P ( x , t ) d t = ∫ Ⓗ f X ( x ∣ t ) ∗ Π θ ( t ) d t \begin{aligned} f_X(x)=\int_ⒽP(x,t)dt=\int_Ⓗf_X(x|t)*\Pi_\theta(t)dt \end{aligned} fX(x)=P(x,t)dt=fX(xt)Πθ(t)dt

所以通过替换分母我们可以得到:
Π θ ( t ∣ x ) = f X ( x ∣ t ) ∗ Π θ ( t ) ∫ Ⓗ f X ( x ∣ t ) ∗ Π θ ( t ) d t \begin{aligned} \Pi_\theta(t|x)=\frac{f_X(x|t)*\Pi_\theta(t)}{\int_Ⓗf_X(x|t)*\Pi_\theta(t)dt} \end{aligned} Πθ(tx)=fX(xt)Πθ(t)dtfX(xt)Πθ(t)
到这一步,我们可以推断出 θ \theta θ的后验分布取决于参数 θ \theta θ的先验概率 Π θ ( t ) \Pi_\theta(t) Πθ(t)和似然函数,也就是分子部分。分母是一个归一化因子,一旦分子确定了,分母的值就随之确定了。

在已知一组样本和其分布的情况下,可以计算出 f X ( x ∣ t ) f_X(x|t) fX(xt),那么 Π θ ( t ) \Pi_\theta(t) Πθ(t)呢?

2 先验概率分布的选择

这里就涉及到先验概率的选择,接下来会介绍几种常用的先验概率分布,但这里暂且不解释为什么它们是常用的。(因为老师没讲,我也没有办法鸭)

2.1共轭先验

共轭先验(conjugate prior)的意思是 参数的先验概率分布和后验概率分布是同一种分布。指数簇分布就是共轭分布的一种。常见的搭配如下:

似然函数 f X ( x ∣ θ ) f_X(x\vert\theta) fX(xθ) 先验概率 Π ( θ ) \Pi(\theta) Π(θ) 后验概率 Π ( θ ∣ x ) \Pi(\theta\vert x) Π(θx)
N ( θ , σ 2 ) N(\theta,\sigma^2) N(θ,σ2) N ( μ , τ 2 ) N(\mu,\tau^2) N(μ,τ2) N ( ρ ( σ 2 μ + τ 2 μ ) , ρ σ 2 τ 2 ) , ρ = ( σ 2 + τ 2 ) − 1 N(\rho(\sigma^2\mu+\tau^2\mu),\rho\sigma^2\tau^2),\rho=(\sigma^2+\tau^2)^{-1} N(ρ(σ2μ+τ2μ),ρσ2τ2),ρ=(σ2+τ2)1
P ( θ ) P(\theta) P(θ) 伽马分布 Γ ( α , β ) \Gamma(\alpha,\beta) Γ(α,β) Γ ( a + ∑ i = 1 n x i , β + n ) \Gamma(a+\sum_{i=1}^{n}x_i,\beta+n) Γ(a+i=1nxi,β+n)
B ( n , θ ) B(n,\theta) B(n,θ) 贝塔分布 B e ( α , β ) Be(\alpha,\beta) Be(α,β) B e ( α + n , β + n − x ) Be(\alpha+n,\beta+n-x) Be(α+n,β+nx)
M k ( θ 1 , . . . , θ k ) M_k(\theta_1,...,\theta_k) Mk(θ1,...,θk) Drichlet分布 D ( α 1 , . . . , α k ) D(\alpha_1,...,\alpha_k) D(α1,...,αk) D ( α 1 + x 1 , . . . , α n + x n ) D(\alpha_1+x_1,...,\alpha_n+x_n) D(α1+x1,...,αn+xn)

推导有时间的话再补上吧!

2.2无信息先验分布

如果没有任何已知的先验信息,先验分布也可以基于样本分布构造出来。
常用的策略是:

  • 拉普拉斯(统一先验)

  • 不变原理

  • Jeffering先验(基于Fisher信息)

    I n ( θ ) = E θ [ ( ∂ l n L ( θ ∣ x ) ∂ θ ) 2 ] = − E θ [ ∂ 2 l n L ( θ ∣ x ) ∂ θ 2 ] In(\theta)=E_\theta[(\frac{\partial lnL(\theta|x)}{\partial \theta})^2]=-E_\theta[\frac{\partial^2 lnL(\theta|x)}{\partial \theta^2}] In(θ)=Eθ[(θlnL(θx))2]=Eθ[θ22lnL(θx)]

    先验概率 Π ( θ ) \Pi(\theta) Π(θ)正比于 I n ( θ ) In(\theta) In(θ)

3 共轭先验公式推导(待补充)

猜你喜欢

转载自blog.csdn.net/weixin_46148223/article/details/108787175