1 感知机

感知机是二类分类的线性分类模型。
感知机学习旨在求出将训练数据进行线性化分的分离超平面。

1.1 感知机模型

感知机是一种线性分类模型，属于判别模型。
感知机模型的假设空间是定义在特征空间中的所有线性分类模型。

1.2 感知机学习策略

线性可分数据集：存在某个超平面S能够将数据集的正负实例点完全正确地划分开。
假设训练数据集是线性可分的，感知机学习的目标就是求得一个能够将训练集正负实例点完全正确分开的超平面。即，确定感知机模型的参数w和b。需要确定一个学习策略，即定义损失函数并将损失函数极小化。

感知机所采用的损失函数是误分类点到超平面S的总距离，是w，b的连续可导函数。这个损失函数就是感知机学习的经验风险函数。

1.3 感知机学习算法

引入损失函数后，感知机学习问题就转化难为求解损失函数式的最优化问题，最优化的方法是随机梯度下降法。

1.3.1 感知机学习算法的原始形式

感知机学习算法是对给定数据集，求参数w，b使得损失函数极小化的问题的算法。
感知机学习算法是误分类驱动的，采用随机梯度下降法。
首先，任意选取一个超平面w0，b0，然后用梯度下降法不断地极小化目标函数。极小化过程中不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。引入学习率后，通过迭代可以期待损失函数L不断减小，直到为0。
算法的终止条件是训练集中没有误分类点。
算法的直观解释：当一个点被误分类时，调整w,b，使超平面向误分类点的一侧移动，直至超平面阅过该误分类点使其正确分类。
经过有限次搜索可以找到将训练数据完全正确分开的分离超平面，也就是说，当训练集线性可分时，感知机学习算法原始形式迭代是收敛的。

1.3.2 感知机学习算法的对偶形式

对偶形式的基本想法是：将w和b表示为实例Xi和标记Yi的线性组合的形式，哦通过求解其系数而求得w和b。
与原始形式一样，对偶形式也是收敛的，存在多个解。

1.4 小结

感知机是二分类的线性分类模型。
感知机模型对应于输入控件中的分离超平面。
感知机学习的策略是极小化损失函数。损失函数对应于误分类点到分离超平面的总距离。
感知机学习算法是基于随机梯度下降法的对于损失函数的最优化算法。
当训练集线性可分时，感知机学习算法一定是收敛的。存在无穷多个解。

统计学习方法第二版学习笔记（一）感知机