统计学习方法 | 感知机

通过这篇文章我们了解了统计学习方法的概念和基本的三要素。

还记得三要素么？

模型、策略、算法

这周我们进入正题，对各个统计学习方法按照三要素的结构进行学习，先从机器学习最原始的方法说起——感知机。

稍微了解一下人工智能的发展历史，我们可以知道，感知机算法见证了人工智能领域的第一次低谷期，启发了后面的神经网络和支持向量机。

虽然我们已经不再使用感知机算法求解复杂问题，但了解其思路对于后面神经网络、支持向量机等算法的学习是非常必要的。

下面就一起来学习吧～

02 感知机模型

感知机在1957年由Rosenblatt提出，是神经网络、支持向量机的基础，它是二分类的线性分类模型，属于判别模型。

我们来看看感知机的定义，

由输入空间X到输出空间Y的如下函数称为感知机：

y=f(x)=sign(w.x+b)

其中，w b为感知机模型参数，w为权值、权值向量weight vector，b为偏置bias，sign为符号函数，

sign(x)=+1,x>=0; -1,x<0

分离超平面S：w.x+b=0

感知机的目的是求出将训练数据集线性划分的分离超平面S。

正如概论中所说，要达到感知机的目的，我们找到这个超平面的损失函数L(w,b)，利用梯度下降法对损失函数极小化，从而求得感知机模型。

学习策略，就是求解最佳超平面S的策略，

可以概括为两步：

定义损失函数

损失函数极小化

感知机是0、1的二分类模型，直观来讲，其损失函数就是误分类点到分离超平面S的总距离，损失函数如下：

感知机损失函数

损失函数已经定义，接下来就是将损失函数最小化的策略：在假设空间中选取使损失函数最小的模型参数w,b，从而得到感知机模型f(x)=sign(wx+b)

算法其实就是损失函数最小化的具体计算方法，这里使用随机梯度下降法（如果有必要，后期可能会补充分享该内容）

感知机算法是基于随机梯度下降法的对损失函数的最优化算法，有原始形式和对偶形式，算法可以表示如下：

感知机算法-极小化损失函数

下面给出算法的原始形式

看了以上过程你可能还是很懵逼，那么我们对以上算法进行直观解释看看：

当一个实例被误分类，即位于分离超平面S的错误一侧，则调整w b值，使分离超平面S向该误分类点的移动，以减少该误分类点与超平面S的距离，直至超平面越过该误分类点，使其被正确分类。

简单总结一下感知机

虽然对于复杂问题的求解，我们已经不再使用感知机方法，但感知机是神级网络和支持向量机的基础。

这周我们从感知机模型、策略、算法这三要素对感知机进行了解和学习，下周我们将对K近邻法(KNN)进行学习，敬请期待～