统计学习方法笔记-感知机

感知机是二类分类的线性模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值，属于判别模型。分为原始形式和对偶形式。是神经网络与支持向量机的基础。

由输入空间到输出空间的如下函数：f(x) = sign(w·x + b) 称为感知机.

其中，w和b为感知机模型参数，

叫做权值或权值向量，

叫做偏置，

sign是符号函数，即

感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合

{f | f(x) = w·x + b}

感知机有如下几何解释：

线性方程 w·x + b = 0 对应特征空间中的一个超平面S，其中w是超平面的法向量，b是超平面的截距。这个超平面将特征空间分成两部分.位于两部分的点分别被分为正、负两类（注意：正负类只是代表两种不同的类别，而不是正的表示正确分类的类、负的表示错误分类的类）。因此，超平面S称为分离超平面。

感知机学习策略

假设训练数据是线性可分的，感知机学习的目标是求得一个能将训练数据集的正负实例完全正确分开的分离超平面。为了找出这样的超平面，定义损失函数并将损失函数极小化

损失函数的一个自然选择是误分类点的总数。但是这样的损失函数不是参数w，b连续可导的函数，不易优化。损失函数的另一个选择是误分类点到超平面S的总距离，这是感知机所采用的。输入空间中的任一点x0到超平面S的距离：

1/||w|| · |w·x0 + b|

这里，||w||是w的L2范数。

证明如下：

对于误分类点来说-yi(w·xi + b) > 0，因此误分类点xi到超平面S的距离是：-1/||w|| · yi (w·xi + b)

因为||w||是固定的，所以可以不考虑1/||w||，那么就得到了感知机的损失函数

其中M为误分类点的集合，这个损失函数就是感知机的经验风险函数。

感知机学习算法

感知机学习算法的原始形式

感知机学习算法是对以下最优化问题的算法

其中M为误分类点的集合。

感知机学习算法是误分类驱动的，具体采取随机梯度下降法，首先选取一个超平面w0，b0，然后用梯度下降法不断地极小化目标函数。极小化过程不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

其中两个损失函数分别是相对w和相对b的求偏导数得到的。

其中 η(0< η<=1 )是学习率，这样通过迭代可以期待损失函数不断减小，直到为0；

可以用如下算法实现：

感知机学习算法原始形式：

输入：线性可分的数据集

输出：w，b；

感知机模型f(x) = sign(w·x + b).

(1) 选取初值w0，b0

(2) 在训练集中选取数据(xi，yi)

(3) 如果yi(w·xi + b) <= 0

w <- w + η·yi·xi

b <- b + η·yi

持续(3)直到 yi(w·xi + b) > 0

(4) 转至（2）直至训练集中没有误分类点。

感知机学习算法对偶形式

对偶形式的基本想法是，讲w和b表示为xi和yi的线性组合的形式，通过求解其系数而求得w和b，对于误分类点(xi，yi)通过

w <- w + η·yi·xi

b <- b + η·yi

逐步修改w，b，设误分类点(xi，yi)修改ni次，则w，b关于(xi，yi)的增量分别是 αi·yi·xi和αi·yi，这里αi=ni·η，最后学习得到的w，b可以分别表示为(w0和b0初始值为0)

（注意：因为对于正确分类的点ni= 0，所以上述式子成立）

实例点更新次数越多，意味着它距离分离超平面越近，也就越难正确分类。换句话说，这样的实例对学习结果影响最大。

算法：

输入：线性可分数据集

输出：w，b；

感知机模型

1、 α <- 0，b <- 0

2、在训练数据集中取(xi，yi)

αi <- αi + η

b <- b + η·yi

重复3，直到点(xi，yi)被正确分类

（注意：

1、初始时 αi = 0，i=1、2、···、n，随着后面不断的更新直到最后才有ai=ni· η ）

4、转至2直到没有误分类数据。

统计学习方法笔记-感知机

猜你喜欢