机器学习（二）概率密度分布之参数估计

机器学习（二）概率密度估计之参数估计

2018/2/19
by ChenjingDing

概率密度估计总体上可分为两种方法，参数估计和非参数估计的方法。

一.参数估计

假设随机变量服从不同的分布，则可以求取该分布概率密度函数的参数。频率学派认为该参数是固定的，因此产生了最大似然估计。而贝叶斯学派认为该参数也是随机变量，产生了贝叶斯学习的方法。

1.1最大似然估计

*1.1.1最大似然估计的基本原理

目标函数：
找到参数 $\theta$ 使得样本x出现的概率最大。即： $\theta = argmax_\theta p(x|\theta)$
利用导数求极值：

L (θ) = p (x | θ) = \prod_{i = 1}^{n} p (x_{i} | θ) (所 有 样 本 都 独 立 同 分 布) E (θ) = - \ln p (x | θ) = - \ln \prod_{i = 1}^{n} p (x_{i} | θ) = - \sum_{i = 1}^{n} \ln p (x_{i} | θ)

$L(\theta) = p(x | θ) = \prod_{i=1}^n p(x_i|θ)(所有样本都独立同分布)\\ E(θ)=-\ln p(x|θ)= - \ln \prod_{i=1}^n p(x_i|θ)\\ =- \sum_{i=1}^n \ln p(x_i|θ) \\$

m a x L (θ)

$max L(\theta)$ 就相当于

m i n E (θ)

$minE(\theta)$ ,所以目标函数是

θ = a r g m i n_{θ} E (θ)

$\theta = arg min_\theta E(\theta)$ ；

\frac{\partial E (θ)}{\partial θ} = - \frac{\partial \sum_{i = 1}^{n} \ln p (x_{i} | θ)}{\partial θ} = - \sum_{i = 1}^{n} \frac{\partial p (x_{i} | θ)}{p (x_{i} | θ) \partial θ} = 0

$\frac{\partial E(\theta)}{\partial \theta} = - \frac{\partial \sum_{i=1}^n \ln p(x_i|θ) }{\partial \theta} = - \sum_{i=1}^n \frac{\partial p(x_i|θ)}{ p(x_i|θ) \partial \theta} = 0$ 根据上式即可求得

θ

$\theta$ 。

1.1.2高斯分布的最大似然估计

假设随机变量X服从一维高斯分布，样本 $x = (x_1,x_2...x_{n-1},x_n)$ ，则参数 $θ = (μ，σ)$ 。
先求 $\widehat{μ}$ : $\frac{\partial E(θ)}{\partial \theta} = -\sum_{i=1}^n - \frac{2(x_i-\widehat{μ})}{ 2σ^2} = \frac{1}{σ^2} [\sum_{i=1}^n x_i-n\widehat{μ}] = 0$ ；

\hat{μ} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}

$\widehat{μ} = \frac{1}{n}\sum_{i=1}^n x_i$ 同理：

{\hat{σ}}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \hat{μ})^{2}

$\widehat{σ} ^2=\frac{1}{n} \sum_{i=1}^n (x_i - \widehat{μ} )^2$ 无偏估计：

\hat{μ}

$\widehat{μ}$ 是无偏估计:

E (\hat{μ}) = E (\frac{1}{n} \sum_{i = 1}^{n} x_{i}) = \frac{1}{n} \sum_{i = 1}^{n} E (x_{i}) = μ, （ E (x_{i}) = E (X) : 样 本 和 总 体 同 分 布 ）

$E(\widehat{μ}) = E( \frac{1}{n}\sum_{i=1}^n x_i ) =\frac{1}{n} \sum_{i=1}^n E(x_i) = μ,（E(x_i) = E(X):样本和总体同分布）$

{\hat{σ}}^{2}

$\widehat{σ} ^2$ 是渐进无偏估计：

E ({\hat{σ}}^{2}) = E (\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \hat{μ})^{2}) = E (\frac{1}{n} \sum_{i = 1}^{n} (x_{i}^{2} - 2 x_{i} \hat{μ} + {\hat{μ}}^{2})) = E (\frac{1}{n} \sum_{i = 1}^{n} (x_{i}^{2}) - 2 {\hat{μ}}^{2} + {\hat{μ}}^{2}) = [\frac{1}{n} \sum_{i = 1}^{n} E (x_{i}^{2})] - E ({\hat{μ}}^{2}) = [\frac{1}{n} \sum_{i = 1}^{n} [D (x_{i}) + E (x_{i})^{2}]] - [D (\hat{μ}) + E (\hat{μ})^{2}] = \frac{1}{n} [n σ^{2} + n μ^{2}] - [\frac{σ^{2}}{n} + μ^{2}] = \frac{n - 1}{n} σ^{2}

$E(\widehat{σ} ^2) = E (\frac{1}{n} \sum_{i=1}^n (x_i - \widehat{μ} )^2) = E(\frac{1}{n} \sum_{i=1}^n (x_i ^2- 2x_i \widehat{μ}+ \widehat{μ}^2 ))=E(\frac{1}{n} \sum_{i=1}^n (x_i ^2) -2\widehat{μ}^2 + \widehat{μ}^2 ) =[\frac{1}{n} \sum_{i=1}^n E( x_i ^2)] -E( \widehat{μ}^2) \\ =[\frac{1}{n} \sum_{i=1}^n [D(x_i) + E(x_i)^2 ]] - [D(\widehat{μ})+E(\widehat{μ})^2] \\ = \frac{1}{n} [n\sigma^2+nμ^2]-[ \frac{\sigma^2}{n} + μ^2] \\= \frac{n-1}{n} \sigma^2$ 上述推导用到以下两个公式：
1.

D (X) = E (X^{2}) - E (X)^{2}

$D(X) = E(X^2)-E(X)^2$ ;
2.

D (\hat{μ}) = D (\frac{1}{n} \sum_{i = 1}^{n} x_{i}) = \frac{1}{n^{2}} D (\sum_{i = 1}^{n} x_{i}) = \frac{1}{n^{2}} \sum_{i = 1}^{n} D (x_{i}) (样 本 之 间 独 立 同 分 布) = \frac{σ}{n};

$D(\widehat{μ}) = D(\frac{1}{n} \sum_{i=1}^n x_i) = \frac{1}{n^2}D(\sum_{i=1}^n x_i) \\= \frac{1}{n^2}\sum_{i=1}^n D(x_i) (样本之间独立同分布) = \frac{\sigma}{n};$

所以，需要修改 $\widehat{σ} ^2$ ，使得

{\hat{σ}}_{c o r r}^{2} = \frac{n}{n - 1} {\hat{σ}}^{2}

$\widehat{σ} ^2_{corr} =\frac{n}{n-1} \widehat{σ} ^2$

1.2贝叶斯学习

1.2.1 贝叶斯学习估计参数

暂时跳过。

*1.2.2 贝叶斯学习预测

x是已知样本。 $\widehat{x}$ 是需要被预测的数据，即另一个未知的样本数据, 样本之间相互独立同分布。

p (\hat{x} | x) = \int p (\hat{x}, θ | x) d θ = \int p (\hat{x} | x, θ) p (θ | x) d θ = \int p (\hat{x} | θ) p (θ | x) d θ (\hat{x} 和 x 在 已 知 θ 情 况 下 ， 相 互 独 立) = \int p (\hat{x} | θ) \frac{p (x | θ) p (θ)}{p (x)} d θ = \int p (\hat{x} | θ) \frac{p (x | θ) p (θ)}{\int p (x | θ) p (θ) d θ} d θ (p (x) = \int p (x | θ) p (θ) d θ, 边 缘 分 布 和 总 体 分 布 的 关 系)

$p(\widehat{x}| x) = \int p(\widehat{x},\theta|x)d\theta \\=\int p(\widehat{x}| x,\theta) p(\theta|x) d\theta \\=\int p(\widehat{x}| \theta) p(\theta|x) d\theta \ (\widehat{x}和x 在已知\theta情况下，相互独立) \\=\int p(\widehat{x}|\theta)\frac{p(x|\theta)p(\theta)}{p(x)} d\theta \\= \int p(\widehat{x}|\theta)\frac{p(x|\theta)p(\theta)}{\int p(x|\theta)p(\theta)d\theta} d\theta\\(p(x) = \int p(x|\theta)p(\theta)d\theta, 边缘分布和总体分布的关系)$

考完试，再来系统更新这部分，了解更多：
https://www.youtube.com/watch?v=Vd_gKry3h4s （贝叶斯学习）
https://www.youtube.com/watch?v=ZL5cv1FiFn4 ( 贝叶斯预测)
https://www.youtube.com/playlist?list=PLFDbGp5YzjqXQ4oE4w9GVWdiokWB9gEpm（系统学习贝叶斯学习）