Pattern Recognition and Machine Learning 第四章线性分类模型

标签：机器学习

线性分类模型

分类的目标是将输入变量 x 分到 K 个离散的类别 $C_k$ 中的某一类。线性分类模型中决策面是x的线性函数，为 D 维输入空间中的 (D − 1) 维超平面。

采用决策论分类时，也是要先推断（即训练学习）再做决策。有三种方法得到决策：

判别函数，不用概率，直接定义函数进行分类
生成式法： $\sum p(x,C_k)→p(x)→p(x|C_k)→p(C_k|x)$
判别式法，直接从数据求 $p(C_k|x)$

判别函数

将x分类到 $C_k$ 的映射函数，只讨论线性判别函数。

区别两类

y (x ⃗) = w T x ⃗ + w 0 {\geq 0 < 0 x ⃗ \in C 1 x ⃗ \in C 2

$y(\vec x)=w^T\vec x+w_0 \begin{cases} \geq0 &\text{$\vec x\in C_1$}\\ <0 &\text{$\vec x\in C_2$} \end{cases}$
分界面

y(x⃗ )=0 $y(\vec x)=0$ ，其中

w0 $w_0$ 决定了分界面与原点的距离为

−w0||w|| $-w_0\over||w||$ 。

区别多类

区别K类，若分界面是区分A和 $\bar A$ 的，则要K-1个分界面；若分界面是区别A和B的，需要 $K(K-1)\over 2$ 个分界面。但都会出现无法区分的区域。

故规定K类判别函数，由K个线性函数组成

y k (x ⃗) = w T k x ⃗ + w k 0 {> y j (x ⃗) e l s e \forall j, x \in C k x \notin C k

$y_k(\vec x)=w_k^T\vec x+w_{k0} \begin{cases} >y_j(\vec x) &\text{$\forall j, x\in C_k$}\\ else &\text{$x\notin C_k$} \end{cases}$

$y_k(\vec x)和y_j(\vec x)$ 两两确定一个D-1维超平面

(w k - w j) T x ⃗ + (w k 0 - w j 0) = 0

$(w_k-w_j)^T\vec x+(w_{k0}-w_{j0})=0$ 且平面是单连通和凸的。（可以通过在平面上任取两点，两点连线上的点一定在该平面上来证明）

扫描二维码关注公众号，回复： 893782 查看本文章

Fisher线性判别法

选择已经分好类的点，对每一类的点求一个均值作为这一类的特征，如 $\vec m_1,\vec m_2$ 。要区分两类时，就找一个单位向量w使得 $w^T(\vec m_2-\vec m_1)$ 最大，则可以尽可能地将两类分开。

也有可能两个类别在原始二维空间中 $\vec x_1,\vec x_2$ 可以完美地被分开，但是当投影到连接它们的均值的直线上时，就有了一定程度的重叠。如果类概率分布的协方差矩阵与对角化矩阵差距较大，那么这种问题就会出现。这也是因为降维以后信息丧失导致的。

Fisher提出的思想是最大化一个函数，这个函数能够让类均值的投影分开得较大，同时让每个类别内部的方差较小，从而最小化类别的重叠。

将D维x投影到一维y， $y=w^T\vec x$ ，类内均值为 $\vec m={\sum_i \vec x_i\over N}$ ，投影后类内方差为 $s^2=\sum_i(y_i-m)^2$ .选择投影向量w后判别函数

J (w) = 类 间 方 差 类 内 方 差 = ( m 2 - m 1 ) 2 s 2 1 + s 2 2 = w T S B w w T S W w

$J(w)={类间方差\over 类内方差}={(m_2-m_1)^2\over s_1^2+s_2^2}={w^TS_Bw\over w^TS_Ww}$ 其中

SB $S_B$ 为类间协方差(Between-class)，

SW $S_W$ 为类内协方差(within-class)

S B = (m ⃗ 2 - m ⃗ 1) (m ⃗ 2 - m ⃗ 1) T

$S_B=(\vec m_2-\vec m_1)(\vec m_2-\vec m_1)^T$

S W = \sum x i \in C 1 (x ⃗ i - m ⃗ 1) (x ⃗ i - m ⃗ 1) T + \sum x i \in C 2 (x ⃗ i - m ⃗ 2) (x ⃗ i - m ⃗ 2) T

$S_W=\sum_{x_i\in C_1}(\vec x_i-\vec m_1)(\vec x_i-\vec m_1)^T+\sum_{x_i\in C_2}(\vec x_i-\vec m_2)(\vec x_i-\vec m_2)^T$
对判别函数求导，得最大化条件为

(w T S B w) S W w = (w T S W w) S B w

$(w^TS_Bw)S_Ww= (w^TS_Ww)S_Bw$ 其中括号内的都为标量，则

w \propto S - 1 W (m ⃗ 2 - m ⃗ 1)

$w\propto S_W^{-1}(\vec m_2-\vec m_1)$

该结果被称为Fisher线性判别函数( Fisher linear discriminant )，虽然严格来说它并不是一个判别函数，而是对于数据向一维投影的方向的一个具体选择。然而投影的数据可以接下来被用于构建判别函数。

对于多分类的 Fisher 判别函数，见书…

概率生成式模型

对类条件概率密度 $p(x | C_k )$ 和类先验概率分布 $p(C_k )$ 建模，然后使用这两个概率密度通过贝叶斯定理计算后验概率密度 $p(C_k | x)$ 。

常用函数σ(a)，logistic sigmoid函数

σ (a) = 1 1 + e x p ( - a )

$σ(a)={1\over 1+exp(-a)}$ 是个挤压函数，把无穷大定义域缩小到[0,1]。
对于二类，代入

a = l n p ( x | C 1 ) p ( C 1 ) p ( x | C 2 ) p ( C 2 )

$a=ln{p(x | C_1 )p(C_1 )\over p(x | C_2 )p(C_2 )}$ 得

p (x | C k) = σ (a)

$p(x|C_k)=σ(a)$
对于多类，代入

a k = l n (p (x | C k) p (C k))

$a_k=ln(p(x|C_k)p(C_k))$ 得

p (C k | x) = e x p ( a k ) \sum j e x p ( a j )

$p(C_k|x)={exp (a_k )\over ∑_j exp (a_j )}$ 即为归一化的指数函数，也是softmax函数，为max函数的一个平滑版本。当有相对特大的

ak $a_k$ 时，有

p(Ck)=1 $p(C_k)=1$ .

连续变量

假设各个类别的协方差矩阵相同， $p(x|C_k)=\mathcal{N}(x|\mu_k,\Sigma)$

对于二元类， $p(C_1|x)=σ(w^T x + w_0 )$
对于多类， $a_k(x)=w_k^T x + w_{k0}$ ，也可以划到类似于二元类的形式。

求得的决策边界对应于后验概率 $p(C_k | x)$ 为常数的决策面，因此由 x 的线性函数给出，从而决策边界在输入空间是线性的。先验概率密度 $p(C_k)$ 只出现在偏置参数 $w_0$ 中，因此先验的效果是平移决策边界，即平移后验概率中的常数轮廓线。

如果不假设各个类别的协方差矩阵相同，允许每个类条件概率密度 $p(C_k | x)$ 有自己的协方差矩阵 $Σ_k$ ，那么之前二次项消去的现象不会出现，从而我们会得到x的二次函数，这就引出了二次判别函数。在分界面上有明显的线性和非线性的差别。

高斯分布在等高线图中，若协方差矩阵是任意的，则呈任意方向的椭圆形状；若为对称矩阵，则呈长轴与x轴平行的椭圆形；若为对角矩阵，则为圆形。（前面貌似有看到这个性质）

离散变量

每个变量有2种取值0或1，做出朴素贝叶斯1(naive Bayes)的假设，特征值被看成相互独立的，以类别 $C_k$ 为条件。若有D个数据，得到

p (x | C k) = \prod D i = 1 μ x i k i (1 - μ k i) 1 - x i

$p(x | C_k) =∏^D_{i=1}μ^{x_i}_{ki}(1 − μ_{ki} )^{ 1−x_i}$ 其中对于每个类别,都有 D 个独立的参数。代入

ak(x) $a_k(x)$ 有

a k (x) = \sum i = 1 D {x i l n μ k i + (1 - x i) l n (1 - μ k i)} + l n p (C k)

$a_k (x) =\sum^D_{i=1}\{x_i ln~μ_{ki} + (1 − x_i ) ln (1 − μ_{ki} )\} + ln~p(C_k )$ 是输入变量的线性函数，结果相似。

如果不知道先验类分布和条件密度怎么办？
由数据学习联合概率密度分布 $P(x,C_k)$ ，边缘化求出来。

概率判别式模型

显式地使用一般的线性模型的函数形式，然后使用最大似然法直接确定它的参数。优点是只需要调节更少的参数。

logistic 回归2

使用统计学的术语,这个模型被称为logistic回归，但这是一个分类模型而不是回归模型。

$C_1$ 的后验概率可以写成作用在特征向量 $\phi$ 的线性函数上的 logistic sigmoid 函数的形式，即

p (C 1 | ϕ) = y (ϕ) = σ (w T ϕ)

$p(C_1 | \phi) = y(\phi) = σ(w^T \phi)$ 使用最大似然方法来确定参数，对于一个数据集

ϕn,tn,其中tn∈{0,1}且ϕn=ϕ(xn),yn=p(C1|ϕn) $\phi_n,t_n ,其中 t_n ∈ \{0, 1\} 且\phi_n = \phi(x_n ),y_n=p(C_1 | \phi_n)$ ，似然为

p (t | w) = Π N n = 1 y t n n (1 - y n) 1 - t n

$p(t | w) =\Pi_{n=1}^Ny_n^{t_n}(1 − y_n)^{1−t_n}$ 求导为取似然函数的负对数的方式，定义一个误差函数，产生了 交叉熵(cross-entropy)误差函数,形式为

E (w) = - l n p (t | w) = - \sum n = 1 N {t n l n y n + (1 - t n) l n (1 - y n)}

$E(w) = − ln~p(t | w) = −\sum_{n=1}^N\{t_n ln~y_n + (1 − t_n ) ln (1 − y_n )\}$ 为凸函数，有最小值。求出参数w即可。

缺点：最大似然方法对于线性可分的数据集会产生严重的过拟合现象。通过引入先验概率,然后寻找 w 的MAP解，或通过给误差函数增加一个正则化项,这种奇异性就可以被避免。

对于多类，类似于离散多元变量的推导，再结合前面的softmax函数，求最大似然。

贝叶斯logistic回归

(无风不起浪，并且好饿……)

对logistic回归做贝叶斯推断是不可行的。

步骤如下：

确认一个先验形式，如高斯分布
对w的后验做Laplace近似，得到近似的高斯分布
用反probit函数近似logistic sigmoid得到预测分布
给定决策后得到预测
（+_+）

对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。参考文章，朴素贝叶斯分类 ↩
海哥的作文来了，Logistic回归和梯度上升算法 ↩