《统计学习方法》第二章感知机

本文主要是记录学习《统计学习方法》的笔记总结，部分内容会直接摘录书中原文，特此申明

感知机（perceptron）由Rosenblatt于1957年提出，是一种二类分类的线性分类器模型，输入的是实例（样本）的特征向量，输出的是实例的类别，一般以+1和-1两个值。感知机其实就是输入空间中将实例划分的超平面，属于判别模型。如果熟悉SVM的同学可能会联想到那个支持向量，两者的几何含义差不多。感知机学习旨在求出将训练数据进行线性划分的超平面，利用梯度下降法，将损失函数极小化，求得感知机模型。感知机是神经网络和SVM的基础。

1、感知机模型

定义 1.1 （感知机）
假设输入空间（特征空间） $\mathcal{X} \subseteq \mathbb{R^n}$ ，输出空间是 $\mathcal{Y}=\{+1, -1\}$ ，输入 $x \in \mathcal{X}$ 表示实例的特征向量，代表输入空间的点，输出 $y \in \{+1,-1\}$ 表示实例的类别，从输入空间到输出空间的映射：

f (x) = s i g n (w \cdot x + b)

$f(x) = sign(w\cdot x + b)$
称为感知机。其中

w, b

$w,b$ 是感知机的参数，

w \in R^{n}

$w\in \mathbb{R^n}$ 称为权重或者权值向量，

b \in R

$b \in \mathbb{R}$ 称为偏置（bias）。sign(x)是符号函数，即：

s i g n (x) = {\begin{aligned} + 1, x \geq 0 \\ - 1, x < 0 \end{aligned}

$\begin{equation*} sign(x) = \left \{ \begin{aligned} +1 ,\quad x \ge 0\\ -1 ,\quad x \lt 0 \end{aligned} \right . \end{equation*}$

感知机有如下几何解释，线性方程 $w\cdot x + b=0$ ，对应于特征空间 $\mathbb{R^n}$ 的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距，这个超平面将特征空间里样本点分为正负两类。

1.2 感知机学习策略

1.2.1 数据集的线性可分性

定义1.2 （数据集的线性可分性）给定一个数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i \in \mathcal{X} =\mathbb{R^n}$ ， $y_i \in \mathcal{Y}=\{+1, -1\}, i=1,2,3,...,N$ ，如果存在一个超平面 $S$ ：

w \cdot x + b = 0

$w\cdot x +b =0$ 能够将
数据集的正样本和负样本完全分到超平面的两侧，对于所有

y_{i} = + 1

$y_i = +1$ 的样本，有

w \cdot x_{i} + b > 0

$w\cdot x_i +b > 0$ ，所有

y_{i} = - 1

$y_i = -1$ 的样本，有

w \cdot x_{i} + b < 0

$w\cdot x_i +b < 0$ ，则称数据

T

$T$ 为线性可分数据集

1.2.2 感知机学习策略

为了找到能将数据集分开的超平面，也就是找到参数 $w, b$ ，我们需要确定一个学习策略，即定义一个损失函数并将损失最小化。我们自然想到会使用分类点的错误数作为损失函数，但是这个损失函数关于 $w, b$ 不是连续可导的，不容易优化求解。我们可选择每一个误分类点到超平面 $S$ 的总距离，根据空间几何知识，点 $x_0$ 到平面 $S$ 的距离为:

\frac{1}{‖ w ‖} | w \cdot x_{0} + b |

$\frac{1}{\|w\|}|w\cdot x_0 + b|$
其中

‖ w ‖

$\|w\|$ 是

w

$w$ 的

L_{2}

$L_2$ 范数。对于分类错误的点来说，

y_{i}

$y_i$ 和

w \cdot x_{i} + b

$w\cdot x_i +b$ 异号，所以

- y_{i} (w \cdot x_{i} + b) > 0

$-y_i(w\cdot x_i +b) >0$ 因此，误分类点到超平面的距离是

- \frac{1}{‖ w ‖} y_{i} (w \cdot x_{i} + b)

$-\frac{1}{\|w\|}y_i(w\cdot x_i + b)$

那么对于所有误分类点集合 $M$ ，所有点到超平面的总距离为

- \frac{1}{‖ w ‖} \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$-\frac{1}{\|w\|}\sum_{x_i\in M}y_i(w\cdot x_i + b)$
不考虑

\frac{1}{‖ w ‖}

$\frac{1}{\|w\|}$ (个人感觉这里稍微有点问题，不考虑这一项，结果和加上这一项肯定是有差异的，这里这样操作应该是出于方便求导的考虑)，就得到感知机的损失函数

对于给定的训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，感知机 $sign(w\cdot x+b)$ 学习的损失函数定义为：

L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i + b)$
显然这个损失函数是非负的，分类错误的点越少，损失函数值越小，给定一个训练数据集

T

$T$ ，损失函数

L (w, b)

$L(w,b)$ 是

w, b

$w,b$ 的连续可导函数

1.3 感知机学习算法

1.3.1 感知机算法原始形式

感知机算法用于求解一下最优化问题：

min_{w, b} L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$\min_{w,b} L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i + b)$
其中

M

$M$ 是分错点的集合

算法 1.1 （感知机算法原始形式）

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i \in \mathcal{X} =\mathbb{R^n}$ ， $y_i \in \mathcal{Y}=\{+1, -1\}$ ， $i=1,2,3,...,N$ ，学习率 $\eta \ (0< \eta \le1)$
输出： $w, b$ ，感知机模型 $f(x)=sign(w\cdot x +b)$
(1) 选取初始值 $w_0, b_0$
(2) 在训练集中选取(x_i, y_i)
(3) 如果 $y_i(w\cdot x_i + b)\le 0$

\begin{aligned} w & ⟵ w + η y_{i} x_{i}, x \geq 0 \\ b & ⟵ b + η y_{i}, x < 0 \end{aligned}

$\begin{equation*} \begin{aligned} w &\longleftarrow w+\eta y_ix_i , \quad x \ge 0\\ b &\longleftarrow b+\eta y_i,\quad x \lt 0 \end{aligned} \end{equation*}$

(4) 转至(2) ，直到训练集中没有误分类点

我们可以直观的来理解这个算法，当有一个样本点被分错时，改变 $w,b$ ，也就是调整了超平面，让它减少与分错点的距离，直到被分对。
以下例子摘自《统计学习方法》p29
这里写图片描述

这里写图片描述

这是在计算中误分类点先后取 $x_1,x_3,x_3,x_3,x_1,x_3,x_3$ 得到的分离超平面和感知机模型，如果在计算中误分类点依次取 $x_1,x_3,x_3,x_3,x_2,x_3,x_3,x_3,x_1,x_3,x_3$ ，那得到的平面就是 $2x^{(1)} + x^{(2)} -5=0$ ，可以看到，感知机算法由于采用不同的初值或者选取不同的误分类点，解可能不一样。

1.3.2 算法的收敛性

可以证明，对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全划分的分离超平面和感知机模型，详细推导参考《统计学习方法》p31-p32

1.3.3 感知机学习算法的对偶形式

感知机算法的对偶形式，基本想法就是将 $w, b$ 表示为 $x_i, y_i$ 线性组合的形式

\begin{aligned} w & = \sum_{i = 1}^{N} α_{i} y_{i} x_{i} \\ b & = \sum_{i = 1}^{N} α_{i} y_{i} \end{aligned}

$\begin{equation*} \begin{aligned} w&=\sum_{i=1}^{N}\alpha_{i}y_ix_i\\ b&=\sum_{i=1}^{N}\alpha_{i}y_i \end{aligned} \end{equation*}$

这里 $\alpha_{i} \ge 0$ ，表示第 i 个样本点由于分类错误而进行更新的次数，样本点如果更新次数越多，表示它离超平面越近，越难被区分。

算法 1.2 （感知机算法对偶形式）

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i \in \mathcal{X} =\mathbb{R^n}$ ， $y_i \in \mathcal{Y}=\{+1, -1\}$ ， $i=1,2,3,...,N$ ，学习率 $\eta \ (0< \eta \le1)$
输出： $\alpha, b$ ，感知机模型 $f(x)=sign(\sum_{j=1} ^{N}y_jx_jx +b)$ ， $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T$
(1) $\alpha \longleftarrow 0$ ， $b \longleftarrow 0$
(2) 在训练集中选取(x_i, y_i)
(3) 如果 $y_i(\sum_{j=1} ^{N}y_jx_jx +b)\le 0$

\begin{aligned} α_{i} & ⟵ α_{i} + η \\ b & ⟵ b + η y_{i} \end{aligned}

$\begin{equation*} \begin{aligned} \alpha_i &\longleftarrow \alpha_i+\eta\\ b &\longleftarrow b+\eta y_i \end{aligned} \end{equation*}$

(4) 转至(2) ，直到训练集中没有误分类点

对偶形式中训练样本仅以内积的形式出现，为了方便，可以预先将训练集中样本间的内急计算出来存入到矩阵中，高等代数里这个矩阵称为 Gram矩阵

G = [x_{i} \cdot x_{j}]_{N * N}

$G=[x_i\cdot x_j]_{N*N}$

以下例子摘自《统计学习方法》p34-35

这里写图片描述