第十周学习笔记
1.阅读《模式识别》(第三版)张学工
第二章 统计决策方法
主要内容
- 最小错误率贝叶斯决策
- 最小风险贝叶斯决策
- 两类错误率、Neyman-Pearson决策与ROC曲线
- 正态分布时的统计决策
- 错误率的计算
- 离散概率模型下的统计决策举例(马尔可夫模型,隐马尔科夫模型)
值得注意的地方
1.为什么最小错误率贝叶斯决策是使后验概率最大的决策?
最小错误率贝叶斯决策是为了最小化
minP(e)=∫p(e∣x)p(x)dx
对于某个x,有
p(e∣x)={P(w2∣x)P(w1∣x)如果决策x∈w1如果决策x∈w2
其中
p(x)可依据全概率公式展开,
直观的理解就是,如果认为
x属于第一类,那么犯错误的概率就是
x属于第二类的概率,如果认为
x属于第二类,那么犯错误的概率就是
x属于第一类的概率。
所以
2.计算后验概率的时候可以不用计算分母
后验概率的计算法则为
p(wi∣x)=p(x)p(x∣wi)p(wi)
其中
p(x)可以依据全概率公式展开,由公式可知,右边的分母是不依赖于
i的因此,计算x属于各个类别的后验概率时
p(x)是相等的,因而,可以只计算分母进行比较即可,事实上
p(x)只是一个归一因子。
3.灵敏度、特异度、准确率、召回率
灵敏度、特异度、准确率、召回率的计算公式分别为
Sn(灵敏度)=TP+FNTP
Sp(特异度)=TN+FPTN
P(准确率)=TP+FPTP
R(召回率)=TP+FNTP
观察公式可知,灵敏度就是召回率,也就是正类样本中被识别成正类的比例,医学角度说就是在所有生病的人中被判断为生病的人数,特异度是负类样本中被识别为负类的比例,而准确率就是判断为正类的样本中,真实为正类的样本所占比例,注意此处的准确率和召回率都是针对正类样本所言,换一个角度,特异度其实也是负类样本的召回率。
4.不相关性与独立性
不相关性
E[X1X2]=E[X1]E[X2]
也可以是
Cov(X1,X2)=0
独立性
p(X1X2)=p(X1)p(X2)
独立
⇒不相关
5.正态分布概率模型下的最小错误贝叶斯决策
当假设各类正态分布的协方差矩阵相等时,实际上就是CS229中的高斯判别分析
6.基于概率模型的模式识别方法与基于数据模式的识别方法
基于概率模型的模式识别方法使用概率模型对各类样本进行建模,进而比较似然比进行决策,而基于数据模式的识别方法直接估计计算数据到模式的映射,分别对应了生成学习方法和判别学习方法。
第三章 概率密度函数估计
主要内容
- 最大似然函数估计
- 贝叶斯估计与贝叶斯学习
- 概率密度估计的的非参数方法
值得注意的地方
1.P48习题:为什么
Σ^=N1(xi−μ^)(xi−μ^)T不是无偏估计?
E[Σ^]=N1E[i=1∑N(xi−μ^)(xi−μ^)T]=N1E[i=1∑N(xixiT−μ^xiT−xiμ^T+μ^μ^T)]=N1E[i=1∑N(xixiT−μ^μ^T)]=E[x1x1T−μ^μ^T]=E[x1x1T]−E[μ^μ^T]=D[x1]+E[x1]E[x1]T−(D[μ^]+E[μ^]E[μ^]T)=Σ+μμT−N1Σ−μμT=NN−1Σ
同时可知
N−11E[∑i=1N(xi−μ^)(xi−μ^)T]是
Σ的无偏估计
第四章 线性分类器
主要内容
值得注意的地方
1.P65公式推导
∂w∂JF(w)=wTSww2Sbw−(wTSww)22wTSbwSw=wTSww2(m1−m2)(m1−m2)Tw−(wTSww)22wT(m1−m2)(m1−m2)TwSww=wTSww2wT(m1−m2)(m1−m2)−(wTSww)22wT(m1−m2)wT(m1−m2)Sww=wTSww2wT(m1−m2)[(m1−m2)+wTSwwwT(m1−m2)Sww]
令其等于0,得
w⋆∝Sw−1(m1−m2)