第十周学习笔记

第十周学习笔记

1.阅读《模式识别》(第三版)张学工

第二章 统计决策方法

主要内容

  • 最小错误率贝叶斯决策
  • 最小风险贝叶斯决策
  • 两类错误率、Neyman-Pearson决策与ROC曲线
  • 正态分布时的统计决策
  • 错误率的计算
  • 离散概率模型下的统计决策举例(马尔可夫模型,隐马尔科夫模型)

值得注意的地方

1.为什么最小错误率贝叶斯决策是使后验概率最大的决策?

最小错误率贝叶斯决策是为了最小化
min P ( e ) = p ( e x ) p ( x ) d x \min P(e)=\int p(e|x)p(x)dx

对于某个x,有
p ( e x ) = { P ( w 2 x ) 如果决策x w 1 P ( w 1 x ) 如果决策x w 2 p(e|x)= \begin{cases} P(w_2|x)& \text{如果决策x}\in w_1\\ P(w_1|x)& \text{如果决策x}\in w_2 \end{cases}

其中 p ( x ) p(x) 可依据全概率公式展开,
直观的理解就是,如果认为 x x 属于第一类,那么犯错误的概率就是 x x 属于第二类的概率,如果认为 x x 属于第二类,那么犯错误的概率就是 x x 属于第一类的概率。
所以

最小化积分式
最小化p(e|x)
p(x)是固定的
选择更小的p(w|x)
选择更大的后验概率
2.计算后验概率的时候可以不用计算分母

后验概率的计算法则为

p ( w i x ) = p ( x w i ) p ( w i ) p ( x ) p(w_i|x)=\dfrac{p(x|w_i)p(w_i)}{p(x)}

其中 p ( x ) p(x) 可以依据全概率公式展开,由公式可知,右边的分母是不依赖于 i i 的因此,计算x属于各个类别的后验概率时 p ( x ) p(x) 是相等的,因而,可以只计算分母进行比较即可,事实上 p ( x ) p(x) 只是一个归一因子。

3.灵敏度、特异度、准确率、召回率

灵敏度、特异度、准确率、召回率的计算公式分别为

S n (灵敏度) = T P T P + F N Sn \text{(灵敏度)}= \dfrac{TP}{TP+FN}

S p (特异度) = T N T N + F P Sp \text{(特异度)} = \dfrac{TN}{TN+FP}

P (准确率) = T P T P + F P P \text{(准确率)} = \dfrac{TP}{TP+FP}

R (召回率) = T P T P + F N R \text{(召回率)} = \dfrac{TP}{TP+FN}

观察公式可知,灵敏度就是召回率,也就是正类样本中被识别成正类的比例,医学角度说就是在所有生病的人中被判断为生病的人数,特异度是负类样本中被识别为负类的比例,而准确率就是判断为正类的样本中,真实为正类的样本所占比例,注意此处的准确率和召回率都是针对正类样本所言,换一个角度,特异度其实也是负类样本的召回率

4.不相关性与独立性

不相关性
E [ X 1 X 2 ] = E [ X 1 ] E [ X 2 ] E[X_1X_2]=E[X_1]E[X_2]
也可以是
C o v ( X 1 , X 2 ) = 0 Cov(X_1,X_2)=0
独立性
p ( X 1 X 2 ) = p ( X 1 ) p ( X 2 ) p(X_1X_2)=p(X_1)p(X_2)

独立 \Rightarrow 不相关

5.正态分布概率模型下的最小错误贝叶斯决策

当假设各类正态分布的协方差矩阵相等时,实际上就是CS229中的高斯判别分析

6.基于概率模型的模式识别方法与基于数据模式的识别方法

基于概率模型的模式识别方法使用概率模型对各类样本进行建模,进而比较似然比进行决策,而基于数据模式的识别方法直接估计计算数据到模式的映射,分别对应了生成学习方法和判别学习方法。

第三章 概率密度函数估计

主要内容

  • 最大似然函数估计
  • 贝叶斯估计与贝叶斯学习
  • 概率密度估计的的非参数方法

值得注意的地方

1.P48习题:为什么 Σ ^ = 1 N ( x i μ ^ ) ( x i μ ^ ) T \hat{\Sigma}=\dfrac{1}{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T 不是无偏估计?

E [ Σ ^ ] = 1 N E [ i = 1 N ( x i μ ^ ) ( x i μ ^ ) T ] = 1 N E [ i = 1 N ( x i x i T μ ^ x i T x i μ ^ T + μ ^ μ ^ T ) ] = 1 N E [ i = 1 N ( x i x i T μ ^ μ ^ T ) ] = E [ x 1 x 1 T μ ^ μ ^ T ] = E [ x 1 x 1 T ] E [ μ ^ μ ^ T ] = D [ x 1 ] + E [ x 1 ] E [ x 1 ] T ( D [ μ ^ ] + E [ μ ^ ] E [ μ ^ ] T ) = Σ + μ μ T 1 N Σ μ μ T = N 1 N Σ \begin{aligned} E[\hat\Sigma]&=\dfrac{1}{N}E[\sum_{i=1}^{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T]\\ &=\dfrac{1}{N}E[\sum_{i=1}^{N}(x_ix_i^T-\hat\mu x_i^T-x_i\hat\mu^T+\hat\mu\hat\mu^T)]\\ &=\dfrac{1}{N}E[\sum_{i=1}^N(x_ix_i^T-\hat\mu\hat\mu^T)]\\ &=E[x_1x_1^T-\hat\mu\hat\mu^T]\\ &=E[x_1x_1^T]-E[\hat\mu\hat\mu^T]\\ &=D[x_1]+E[x_1]E[x_1]^T-(D[\hat\mu]+E[\hat\mu]E[\hat\mu]^T)\\ &=\Sigma+\mu\mu^T-\dfrac{1}{N}\Sigma-\mu\mu^T\\ &=\dfrac{N-1}{N}\Sigma \end{aligned}
同时可知 1 N 1 E [ i = 1 N ( x i μ ^ ) ( x i μ ^ ) T ] \dfrac{1}{N-1}E[\sum_{i=1}^{N}(x_i-\hat{\mu})(x_i-\hat{\mu})^T] Σ \Sigma 的无偏估计

第四章 线性分类器

主要内容

  • 线性判别函数的基本概念
  • Fisher线性判别分析

值得注意的地方

1.P65公式推导

J F ( w ) w = 2 S b w w T S w w 2 w T S b w S w ( w T S w w ) 2 = 2 ( m 1 m 2 ) ( m 1 m 2 ) T w w T S w w 2 w T ( m 1 m 2 ) ( m 1 m 2 ) T w S w w ( w T S w w ) 2 = 2 w T ( m 1 m 2 ) ( m 1 m 2 ) w T S w w 2 w T ( m 1 m 2 ) w T ( m 1 m 2 ) S w w ( w T S w w ) 2 = 2 w T ( m 1 m 2 ) w T S w w [ ( m 1 m 2 ) + w T ( m 1 m 2 ) S w w w T S w w ] \begin{aligned} \dfrac{\partial{J_F(w)}}{\partial{w}}&=\dfrac{2S_bw}{w^TS_ww}-\dfrac{2w^TS_bwSw}{(w^TS_ww)^2}\\ &=\dfrac{2(m_1-m_2)(m_1-m_2)^Tw}{w^TS_ww}-\dfrac{2w^T(m_1-m_2)(m_1-m_2)^TwS_ww}{(w^TS_ww)^2}\\ &=\dfrac{2w^T(m_1-m_2)(m_1-m_2)}{w^TS_ww}-\dfrac{2w^T(m_1-m_2)w^T(m_1-m_2)S_ww}{(w^TS_ww)^2}\\ &=\dfrac{2w^T(m_1-m_2)}{w^TS_ww}\left[(m_1-m_2)+\dfrac{w^T(m_1-m_2)S_ww}{w^TS_ww} \right] \end{aligned}
令其等于0,得

w S w 1 ( m 1 m 2 ) w^{\star} \propto S_w^{-1}(m_1-m_2)

猜你喜欢

转载自blog.csdn.net/luo3300612/article/details/83028130