统计学习方法——第2章感知机(个人笔记)

统计学习方法——第2章感知机(个人笔记)

参考《统计学习方法》(第二版)李航

感知机就是二分类的线性分类模型,输入为特征向量,输出只为+1、-1。

2.1 感知机模型

模型为:

f(x)=sign(w\cdot x+b)

其中,w为权重or权值,b为偏置,x为特征向量。

sign为符号函数:

sign(x)=\left\{\begin{matrix} +1, &x\geq 0 \\ -1, &x< 0 \end{matrix}\right.

假设感知机在二维平面,感知机可为线性方程:

w\cdot x+b=0

例图如下,

 感知机为超平面,w为超平面的法向量,b为超平面的截距。

2.2 感知机学习策略

2.2.1 数据集的线性可分性

给定一个数据集:

T=\{(x_1,y_1),\left. \cdots , \right(x_n,y_n) \}

如果存在感知机模型(即为超平面S)使得数据集的正样本和负样本完全正确划分,则称为T为线性可分数据集,反之,为线性不可分数据集。

2.2.2 感知机学习策略

感知机的学习目标就是找到能将训练集的正负样本分开的超平面,也就是确定模型参数w,b

学习策略就是找到损失函数并使损失函数极小化。

首先,输入空间任意一点x_0到超平面S的距离为:

\frac{1}{\left \| w \right \|}|w\cdot x_0+b|

其中,\left \| w \right \|wL_2范数。

对于误分类的数据:

-y_i(w\cdot x_i+b)>0

恒成立,当w\cdot x_i+b>0y_i=-1,当w\cdot x_i+b<0y_i=+1

这样,所有误分类点到超平面S的距离为:

-\frac{1}{\left \| w \right \|}\sum_{x_i}^{}y_i(w\cdot x_i+b)

若不考虑\left \| w \right \|,则损失函数为

L(w,b)=-\sum_{x_i}^{}y_i(w\cdot x_i+b)

若没有误分类点,损失函数为0。

2.3 感知机学习算法

2.3.1 感知机学习算法的原始形式

求参数w,b,使得

\min L(w,b)=-\sum_{x_i}^{}y_i(w\cdot x_i+b)

w,b分别求导,

\bigtriangledown _wL(w,b)=-\sum_{x_i}^{}y_ix_i

\bigtriangledown _bL(w,b)=-\sum_{x_i}^{}y_i

随机选取误分类点(x_i,y_i),w,b进行更新

w=w+\eta y_ix_i

b=b+\eta y_i

其中,\eta(0<\eta \leq 1)为学习步长。

一直更新,直至没有误分类点。

2.3.2 算法的收敛性

2.3.3感知学习算法的对偶形式

对偶形式的基本想法是,将w和b表示为实例x_i和标记y_i的线性组合的形式通过求解其系数来求得w和b。

w=w+\eta y_ix_i

 b=b+\eta y_i

假设修改N次,令\alpha _i=n_i\eta,则上式变为

w=\sum_{i=1}^{N}\alpha _iy_ix_i

b=\sum_{i=1}^{N}\alpha _iy_i

算法2.2 感知机学习算法的对偶形式

感知机模型:

f(x)=sign\left ( \sum_{j=1}^{N}\alpha _jy_jx_j\cdot x+b \right )

(1)a=0,b=0

(2)训练集选取(x_i,y_i)

(3)如果 y_i\left ( \sum_{j=1}^{N}\alpha _jy_jx_j\cdot x_i \right )\leq 0,则

\alpha _i=\alpha _i+\eta

b=b+\eta y_i

(4)转至(2)直至没有误分类数据。

猜你喜欢

转载自blog.csdn.net/pk296256948/article/details/123949479
今日推荐