机器学习(二)概率密度估计之参数估计
2018/2/19
by ChenjingDing
概率密度估计总体上可分为两种方法,参数估计和非参数估计的方法。
一.参数估计
假设随机变量服从不同的分布,则可以求取该分布概率密度函数的参数。频率学派认为该参数是固定的,因此产生了最大似然估计。而贝叶斯学派认为该参数也是随机变量,产生了贝叶斯学习的方法。
1.1最大似然估计
*1.1.1最大似然估计的基本原理
目标函数:
找到参数
θ
使得样本x出现的概率最大。即:
θ=argmaxθp(x|θ)
利用导数求极值:
L(θ)=p(x|θ)=∏i=1np(xi|θ)(所有样本都独立同分布)E(θ)=−lnp(x|θ)=−ln∏i=1np(xi|θ)=−∑i=1nlnp(xi|θ)
maxL(θ)
就相当于
minE(θ)
,所以目标函数是
θ=argminθE(θ)
;
∂E(θ)∂θ=−∂∑ni=1lnp(xi|θ)∂θ=−∑i=1n∂p(xi|θ)p(xi|θ)∂θ=0
根据上式即可求得
θ
。
1.1.2高斯分布的最大似然估计
假设随机变量X服从一维高斯分布,样本
x=(x1,x2...xn−1,xn)
,则参数
θ=(μ,σ)
。
先求
μˆ
:
∂E(θ)∂θ=−∑ni=1−2(xi−μˆ)2σ2=1σ2[∑ni=1xi−nμˆ]=0
;
μˆ=1n∑i=1nxi
同理:
σˆ2=1n∑i=1n(xi−μˆ)2
无偏估计:
μˆ
是无偏估计:
E(μˆ)=E(1n∑i=1nxi)=1n∑i=1nE(xi)=μ,(E(xi)=E(X):样本和总体同分布)
σˆ2
是渐进无偏估计:
E(σˆ2)=E(1n∑i=1n(xi−μˆ)2)=E(1n∑i=1n(x2i−2xiμˆ+μˆ2))=E(1n∑i=1n(x2i)−2μˆ2+μˆ2)=[1n∑i=1nE(x2i)]−E(μˆ2)=[1n∑i=1n[D(xi)+E(xi)2]]−[D(μˆ)+E(μˆ)2]=1n[nσ2+nμ2]−[σ2n+μ2]=n−1nσ2
上述推导用到以下两个公式:
1.
D(X)=E(X2)−E(X)2
;
2.
D(μˆ)=D(1n∑ni=1xi)=1n2D(∑ni=1xi)=1n2∑ni=1D(xi)(样本之间独立同分布)=σn;
所以,需要修改
σˆ2
,使得
σˆ2corr=nn−1σˆ2
1.2贝叶斯学习
1.2.1 贝叶斯学习估计参数
暂时跳过。
*1.2.2 贝叶斯学习预测
x是已知样本。
xˆ
是需要被预测的数据,即另一个未知的样本数据, 样本之间相互独立同分布。
p(xˆ|x)=∫p(xˆ,θ|x)dθ=∫p(xˆ|x,θ)p(θ|x)dθ=∫p(xˆ|θ)p(θ|x)dθ (xˆ和x在已知θ情况下,相互独立)=∫p(xˆ|θ)p(x|θ)p(θ)p(x)dθ=∫p(xˆ|θ)p(x|θ)p(θ)∫p(x|θ)p(θ)dθdθ(p(x)=∫p(x|θ)p(θ)dθ,边缘分布和总体分布的关系)
考完试,再来系统更新这部分,了解更多:
https://www.youtube.com/watch?v=Vd_gKry3h4s (贝叶斯学习)
https://www.youtube.com/watch?v=ZL5cv1FiFn4 ( 贝叶斯预测)
https://www.youtube.com/playlist?list=PLFDbGp5YzjqXQ4oE4w9GVWdiokWB9gEpm(系统学习贝叶斯学习)