简介

感知机（perceptron）是二类分类的线性分类模型，输入为特征向量，输出为+1和-1二值。感知机学习旨在求出将训练数据进行线性划分的分离超平面，属于判别模型。通过导入基于误分类的损失函数，利用梯度下降对损失函数进行极小化，求得感知机模型。感知机学习算法分为原始形式和对偶形式。于1957年由rosenblatt提出，它是神经网络与支持向量机的基础。

感知机模型

定义：假设输入空间（特征空间）是 $X\subseteq R^n$ ，输出空间是 $Y={+1,-1}$ ，输入 $x\in X$ 表示实例的特征向量，对应于输入空间的点；输出 $y\in Y$ 表示实例的类别。由输入空间到输出空间的如下函数称为感知机：

\begin{matrix} (2.1) & f (x) = s i g n (w \cdot x + b) \end{matrix}

$f(x)=sign(w\cdot x +b) \tag{2.1}$
其中，w和b为感知机模型参数，

w \in R^{n}

$w\in R^n$ 叫做权值或权值向量，

b \in R

$b\in R$ 叫做偏置(bias)，sign是 符号函数，即：

\begin{matrix} (2.2) & s i g n (x) = {\begin{aligned} + 1 ， x \geq 0 \\ - 1 ， x < 0 \end{aligned} \end{matrix}

$sign(x)=\left\{ \begin{aligned} +1， x \geq 0 \\ -1， x <0 \\ \end{aligned} \right. \tag{2.2}$

感知机有如下几何解释：线性方程

\begin{matrix} (2.3) & w \cdot x + b = 0 \end{matrix}

$w\cdot x+b=0 \tag{2.3}$
对应于特征空间中的一个 超平面S，其中w是超平面的 法向量，b是超平面的截距，这个超平面将特征空间划分为两个部分，将特征向量分为正负两类，因此超平面S被称为 分离超平面，如下图所示：
这里写图片描述

感知机学习策略

数据集的线性可分性

定义：给定义一个数据集T，如果存在某个超平面S

w \cdot x + b = 0

$w \cdot x +b=0$
能够将数据集的正负实例点完全正确的分到超平面的两侧，即对所有的

y_{i} = + 1

$y_i=+1$ ，有

w \cdot x_{i} + b > 0

$w\cdot x_i +b>0$ ，反之也成立。则称数据集T为 线性可分数据集。

感知机学习策略

假设数据集是线性可分的，则需要求得一个分离超平面，即确定模型参数w,b，需要一个学习策略，定义（经验）损失函数并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数，但是，这样损失函数不是w，b的连续可导函数，不易优化。所以损失函数选择误分类点到超平面S的总距离。首先写出输入空间 $R^n$ 中任意一点到超平面S的距离公式：

\frac{1}{| | w | |} | w \cdot x_{0} + b |

$\frac{1}{||w||}|w\cdot x_0 +b|$
其中||w||是w的

L_{2}

$L_2$ 范数。

公式证明：
点 $x_0$ 到超平面S: $w\cdot x+b=0$ 的距离d的计算过程如下：
- 设点 $x_0$ 在超平面S上面的投影为 $x_1$ ，则 $w\cdot x_1+b=0$
- 由于向量\vec{x_0 x_1}与S平面的法向量w平行，所以：

| w \cdot \vec{x_{0} x_{1}} | = | w | | \vec{x_{0} x_{1}} | = \sqrt{(w^{1})^{2} + . . . (w^{N})^{2}} \cdot d = | | w | | d

$|w\cdot \vec{x_0 x_1}| = |w||\vec{x_0 x_1}|=\sqrt{(w^1)^2+...(w^N)^2} \cdot d=||w||d$
又有：

\begin{aligned} w \cdot \vec{x_{0} x_{1}} & = w^{1} (x_{0}^{1} - x_{1}^{1}) + w^{2} (x_{0}^{2} - x_{1}^{2}) + . . . w^{N} (x_{0}^{N} - x_{1}^{N}) \\ = w^{1} x_{0}^{1} + w^{2} x_{0}^{2} + . . . w^{N} x_{0}^{N} - (w^{1} x_{1}^{1} + w^{2} x_{1}^{2} + . . . w^{N} x_{1}^{N}) \\ = w^{1} x_{0}^{1} + w^{2} x_{0}^{2} + . . . w^{N} x_{0}^{N} - (- b) \end{aligned}

$\begin{aligned} w\cdot \vec{x_0 x_1}&= w^1(x^1_0-x^1_1)+w^2(x^2_0-x^2_1)+...w^N(x^N_0-x^N_1)\\&=w^1x^1_0+w^2x^2_0+...w^Nx^N_0-(w^1x^1_1+w^2x^2_1+...w^Nx^N_1)\\&=w^1x^1_0+w^2x^2_0+...w^Nx^N_0-(-b) \end{aligned}$
所以：

| | w | | d = | w^{1} x_{0}^{1} + w^{2} x_{0}^{2} + . . . w^{N} x_{0}^{N} + b | = | w \cdot x_{0} + b |

$||w||d=|w^1x^1_0+w^2x^2_0+...w^Nx^N_0+b|=|w\cdot x_0+b|$
变形抽出d**得证**：

d = \frac{1}{| | w | |} | w \cdot x_{0} + b |

$d=\frac{1}{||w||}|w\cdot x_0 +b|$
看到网上还有种证明方法也挺有意思的，有兴趣的点击这里。

对于误分类的数据 $(x_i,y_i)$ 来说， $-y_i(w\cdot x_i+b)>0$ 成立，因为误分类的数据真实结果 $y_i$ 和预测值总是符号相反， $y_i$ 的取址为+1和-1。所以误分类的点到超平面S的距离是：

- \frac{1}{| | w | |} y_{i} (w \cdot x_{0} + b)

$-\frac{1}{||w||}y_i(w\cdot x_0 +b)$

这样，假设平面的所有误分类点的集合M，到超平面S的总距离为：

- \frac{1}{| | w | |} \sum_{x_{i} \in M} y_{i} (w \cdot x_{0} + b)

$-\frac{1}{||w||}\sum_{x_i\in M} y_i(w\cdot x_0 +b)$

不考虑 $\frac{1}{||w||}$ ，就得到了感知机学习的损失函数。其中 $y(w\cdot x+b)$ 称为样本点的函数间隔。至于为什么能够省略 $\frac{1}{||w||}$ ，这个是因为我们进行梯度求极小值的时候更新的是参数，省略的项并不会影响到参数的值，最终的参数的结果还是一样的。而且我们的数据集已经假设可以线性可分的了，最终的损失值会为0。

给定数据集T， $x_i\in X=R^n$ ， $y_i\in Y = {+1,-1}$ 。感知机 $sign(w\cdot x+b)$ 学习的损失函数定义为：

\begin{matrix} (2.4) & L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{0} + b) \end{matrix}

$L(w,b) = -\sum_{x_i\in M} y_i(w\cdot x_0 +b) \tag{2.4}$
显然，损失函数是非负的。若无误分类的点，损失函数的值就是0，且误分类点离超平面越近，损失函数值就越小。

感知机学习算法

感知机学习算法的原始形式

感知机学习问题转化为求解损失函数式（2.4）最优化问题。最优化的方法是随机梯度下降法。求参数w，b（也算选取一个超平面），使其为以下损失函数极小化问题的解：

\begin{matrix} (2.5) & \underset{w, b}{m i n} L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{0} + b) \end{matrix}

$\underset{w,b}{min}L(w,b) = -\sum_{x_i\in M} y_i(w\cdot x_0 +b) \tag{2.5}$
随机选取一个误分类点，使用梯度下降对w，b进行更新。

算法2.1（原始形式）
输入：训练集T，其中输入是 $X\subseteq R^n$ ，输出空间是 $Y={+1,-1}$ ；学习率 $\eta(0<\eta \leq 1)$
输出：w，b；感知机模型 $f(x)=sign(w\cdot x+b)$
1. 选取初值 $w_0,b_0$
2. 在训练集中选取数据 $(x_i,y_i)$
3. 若 $y_i(w\cdot x_i +b) \leq 0$

w \leftarrow w + η y_{i} x_{i}

$w\leftarrow w+\eta y_i x_i$

b \leftarrow b + η y_{i}

$b\leftarrow b+\eta y_i$
4. 转至2，直到训练集中没有误分类点。

注：感知机学习算法由于采取不同的初值或者选取不同的误分类点，解可以不同。

算法的收敛性

这个证明说明对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。

为了方便推导，将偏置b并入权重w，记作 $\overset{\wedge}{w}=(w^T,b)^T$ ，同样也将输入向量扩充，记作 $\overset{\wedge}{x}=(x^T,1)^T$ ，显然， $\overset{\wedge}{w}\cdot \overset{\wedge}{x} = w \cdot x +b$

定理（Novikoff）：假设数据集T是线性可分的，其中 $x_i \in X=R^n，y_i\in Y={-1,+1}，i=1,2,...N$ ，则：
(1) 存在满足条件 $||\overset{\wedge}{w}_opt||=1$ 的超平面 $\overset{\wedge}{w}_opt \cdot \overset{\wedge}{x} = w_opt \cdot x+b_opt =0$ 将数据集完全正确分开；且存在 $\gamma>0$ ，对所有的i=1,2…,N

\begin{matrix} (2.8) & y_{i} (\overset{\land}{w_{o p t}} \cdot \overset{\land}{x_{i}}) = y_{i} (w_{o p t} \cdot x_{i} + b_{o p t}) \geq γ \end{matrix}

$y_i(\overset{\wedge}{w_{opt}}\cdot \overset{\wedge}{x_i}) = y_i(w_{opt} \cdot x_i+b_{opt})\geq \gamma \tag{2.8}$
(2) 令

R = \underset{1 \leq i \leq N}{m a x} | | {\overset{\land}{x}}_{i} | |

$R=\underset{1\leq i \leq N}{max}||\overset{\wedge}{x}_i||$ ，则感知机算法(2.1)在训练数据集上面的误分类次数k满足不等式：

\begin{matrix} (2.9) & k \leq (\frac{R}{γ})^{2} \end{matrix}

$k \leq (\frac{R}{\gamma})^2 \tag{2.9}$

这里的证明部分略，在统计学习方法书上写的很详细了，理解也没什么难点。
因此这个定理表明误分类的次数k是有上界的，有限次搜索能够找到分离超平面。换句话说，当数据集可分时，感知机学习算法的原始形式迭代是收敛的。

感知机学习算法的对偶形式

对偶形式的基本思想是：将w和b表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得w和b，可假设初始值 $w_0,b_0$ 均为0，对误分类点通过

\begin{aligned} w \leftarrow w + η y_{i} x_{i} \\ b \leftarrow b + η y_{i} \end{aligned}

$\begin{aligned} &w \leftarrow w+ \eta y_i x_i \\ &b \leftarrow b + \eta y_i \end{aligned}$
逐步修改w，b，设修改了n次，则w，b关于

(x_{i}, y_{i})

$(x_i,y_i)$ 的增量分别是

α_{i} y_{i} x_{i}

$\alpha _i y_i x_i$ 和

α_{i} y_{i}

$\alpha _i y_i$ ，这里

α_{i} = n_{i} η

$\alpha _i =n_i \eta$ ，所以最后学习到的w，b可以表示为：

\begin{matrix} (2.14) & w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i} \end{matrix}

$w=\sum_{i=1}^N \alpha _i y_i x_i \tag{2.14}$

\begin{matrix} (2.15) & b = \sum_{i = 1}^{N} α_{i} y_{i} \end{matrix}

$b = \sum_{i=1}^N \alpha _i y_i \tag{2.15}$

注：当 $\eta =1$ 时，表示第i个实例点由于误分类而进行更新的次数。实例点更新次数越多，代表它距离分离超平面越近，也就越难正确分类。

**算法2.2（感知机学习算法的对偶形式）
输入：线性可分的数据集T，其中输入是 $X\subseteq R^n$ ，输出空间是 $Y={+1,-1}$ ；学习率 $\eta(0<\eta \leq 1)$ 。
输出： $\alpha ,b$ ；感知机模型 $f(x)=sign(\sum_{j=1}^N{\alpha _j y_j x_j \cdot x+b})$ ,其中 $\alpha = (\alpha _1 \alpha _2.....,\alpha _N)^T$ 。
(1) $\alpha \leftarrow 0$ ， $b \leftarrow 0$
(2) 在训练集中选取数据 $(x_i,y_i)$
(3) 如果 $y_i(\sum_{j=1}^N{\alpha _j y_j x_j \cdot x+b})\leq 0$ （这个点误分类了），则更新值：

α_{i} \leftarrow α_{i} + η b \leftarrow b + η y_{i}

$\alpha _i \leftarrow \alpha _i + \eta\\ b \leftarrow b + \eta y_i$
(4) 转至（2）直到没有误分类的数据。

对偶形式中的训练实例仅以内积的形式出现。为了方便，可以预先将训练集实例间的内积计算出来并以矩阵形式存储，这个矩阵就是Gram矩阵：

G = [x_{i} \cdot x_{j}]_{N \times N}

$G = [x_i \cdot x_j]_{N\times N}$

与原始形式一样，对偶形式的迭代是收敛的，存在多个解。

以上的过程通俗一点的讲法就是从训练集中选取 $x_1,x_2..x_n$ ，若哪个是误分类点，则更新对应的 $x_i$ 的 $\alpha_i$ 和b，然后从头开始选取，直到所有的点都正确分类。这段过程的例子在书上介绍很详细，结合书本看更好。

总结

感知机是根据输入实例的特征向量x对其进行二类分类的线性分类模型：
$f (x) = s i g n (w \cdot x + b)$ $f(x) = sign(w \cdot x +b)$
感知机模型对应于输入空间中的分离超平面 $w \cdot x +b=0$
感知机学习的策略是极小化损失函数：
$\underset{w, b}{m i n} L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{0} + b)$ $\underset{w,b}{min}L(w,b) = -\sum_{x_i\in M} y_i(w\cdot x_0 +b)$
损失函数对应于误分类点到分离平面的总距离
感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法，有原始形式和对偶形式。原始形式中，首先任意选取一个超平面，然后用梯度下降法不断极小化目标函数。在这个过程中使用随机梯度下降。最终求出合适的w和b。在对偶形式中，是间接的求w和b，通过将w和b表示为 $x_i$ 和 $y_i$ 的线性组合，然后求解它的系数 $\alpha _i$ 来求出w和b，其中 $w = \alpha _1 x_1 +\alpha _2 x_2+..\alpha _N x_N$
当训练集线性可分时，感知机学习算法是收敛的。在训练集上面误分类次数k满足不等式： $k \leq (\frac{R}{γ})^{2}$ $k \leq (\frac{R}{\gamma})^2$
算法有无穷多个解，根据初值的选取或迭代顺序而不同。

统计学习方法笔记——感知机

简介

感知机模型

感知机学习策略

数据集的线性可分性

感知机学习策略

感知机学习算法

感知机学习算法的原始形式

算法的收敛性

感知机学习算法的对偶形式

总结

猜你喜欢