关于PRML Chap1的一丢丢附加证明

在第一章的1.2.6节,有公式(1.68)

\[p(t | x, \mathbf{x}, \mathbf{t})=\int p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t}) \mathrm{d} \boldsymbol{w} \]

这个公式实际上是在贝叶斯框架下对回归\(t=y(x,w)\)进行推断,即给出了新的\(x\)(注意粗体的区别,\(\mathbf{x}\)是测试集的样本,这部分信息是已知的)下,我们对t的后验概率进行推断。

从读MLAPP的时候就对这个公式有点疑惑,虽然书中一笔带过,但是小白的我决定自己推导一番:

\[p(t | x, \mathbf{x}, \mathbf{t})=\int p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})d\boldsymbol{w} \]

\[p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})=\frac{p(t,\boldsymbol{w},x,\mathbf{x}, \mathbf{t})}{p(x,\mathbf{x}, \mathbf{t})} \]

\[p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t}) =\frac{p(t , x, \boldsymbol{w})p(\boldsymbol{w} , \mathbf{x}, \mathbf{t})}{p(x, \boldsymbol{w})p(\mathbf{x}, \mathbf{t}) } \]

所以目标是证明

\[\frac{p(t,\boldsymbol{w},x,\mathbf{x}, \mathbf{t})}{p(x,\mathbf{x}, \mathbf{t})}=\frac{p(t , x, \boldsymbol{w})p(\boldsymbol{w} , \mathbf{x}, \mathbf{t})}{p(x, \boldsymbol{w})p(\mathbf{x}, \mathbf{t}) } \]

是不是等价性没有那么self-evident =皿=

其实这个地方有用到几个条件独立性。

  • \(p(t,\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})=p(t|x,\mathbf{x}, \mathbf{t})p(\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})\)

这个理解起来就是说,在给定\((x,\mathbf{x}, \mathbf{t})\)下,\(t\)\(\boldsymbol{w}\)是条件独立的。

\(t\)\(\boldsymbol{w}\)之间的联系是由\((x,\mathbf{x}, \mathbf{t})\)给出的,所以当中间连接他们的纽带给定的时候,这两个随机变量是条件独立的。

  • 显然\(p(\boldsymbol{w}|x,\mathbf{x}, \mathbf{t})=p(\boldsymbol{w}|\mathbf{x}, \mathbf{t})\),因为\(x\)是新的样本,无法对w的后验概率造成影响。
  • \(p(t|x,\mathbf{x}, \mathbf{t})=p(t|x,\boldsymbol{w})\).因为\((\mathbf{x}, \mathbf{t})\)影响t的路径是通过影响w产生的,所以这两个等价。

于是,我们得到

\[p(t | x, \mathbf{x}, \mathbf{t})=\int p(t | x, \boldsymbol{w}) p(\boldsymbol{w} | \mathbf{x}, \mathbf{t}) \mathrm{d} \boldsymbol{w} \]

在1.5.1节,给出了错误分类率的公式

\[\begin{aligned}p(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned} \]

书中直接给出结论,要使得错误分类率最小,应该分给后验概率\(P(C_k|x)\)最大的类别中。

推导过程如下:

对于最优的\(\mathcal{R}_{1}, \mathcal{R}_{2}\),只要满足它的犯错概率小于其他所有的决策区域\(\mathcal{R}_{1}’, \mathcal{R}_{2}’\)下的犯错概率即可。

\[\begin{aligned}p(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned} \]

\[\begin{aligned}p'(\text { mistake }) &=p\left(\boldsymbol{x} \in \mathcal{R}_{1}’, \mathcal{C}_{2}\right)+p\left(\boldsymbol{x} \in \mathcal{R}_{2}’, \mathcal{C}_{1}\right) \\&=\int_{\mathcal{R}_{1}’} p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}’} p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \mathrm{d} \boldsymbol{x}\end{aligned} \]

对两个做差,得到

\[p(mistake)-p'(mistake) \\=\int_{\mathcal{R}_{1}\cap \mathcal{R}_{2}’ } (p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) )\mathrm{d} \boldsymbol{x}+\int_{\mathcal{R}_{2}\cap \mathcal{R}_{1}’ } (p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) )\mathrm{d} \boldsymbol{x} \]

那么我们只需要

  • \(p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) \le0\)在任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)上成立。

  • \(p\left(\boldsymbol{x}, \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}, \mathcal{C}_{2}\right) \le0\)在任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)上成立。

由于$p\left(\boldsymbol{x}\right) $是相同的,上述两个公式等价于:

  • \(p\left(\boldsymbol{x}| \mathcal{C}_{2}\right) -p\left(\boldsymbol{x}|\mathcal{C}_{1}\right) \le0\)在任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)上成立。

  • \(p\left(\boldsymbol{x}| \mathcal{C}_{1}\right) -p\left(\boldsymbol{x}|\mathcal{C}_{2}\right) \le0\)在任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)上成立。

而任意\(\mathcal{R}_{1}\cap \mathcal{R}_{2}’\)其实就是\(\mathcal{R}_{1}\),任意\(\mathcal{R}_{2}\cap \mathcal{R}_{1}’\)其实就是\(\mathcal{R}_{2}\)

所以最优的分配规则就是,如果\(p\left(\boldsymbol{x}| \mathcal{C}_{2}\right) \le p\left(\boldsymbol{x}|\mathcal{C}_{1}\right)\)就分配到第一类上,如果\(p\left(\boldsymbol{x}| \mathcal{C}_{1}\right) \le p\left(\boldsymbol{x}|\mathcal{C}_{2}\right)\)就分配到第二类上。

猜你喜欢

转载自www.cnblogs.com/zzqingwenn/p/12668225.html
今日推荐