个性签名：整个建筑最重要的是地基，地基不稳，地动山摇。

而学技术更要扎稳基础，关注我，带你稳扎每一板块邻域的基础。

博客主页：啊四战斗霸的博客

专栏：《统计学习方法》第二版——个人笔记

创作不易，走过路过别忘了三连击了哟！！！
关注作者，不仅幸运爆棚，未来更可期！！！

Triple attack(三连击):Comment,Like and Collect--->Attention

一、感知机模型

感知机是根据输入实例的特征向量x对其进行二类分类的线性分类模型，属于判别模型。

感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，

即函数集合 $\left \{ f|f(x)=\omega \cdot x+b\right \}$ 。

感知机模型的一般形式： $f(x)=sign(\omega \cdot x+b)$

其中，x表示特征向量 $[x_{1},x_{2},...,x_{i}].T$ ， $\omega$ 和b是感知机模型参数， $\omega$ 叫做权值或权值向量 $[\omega _{1},\omega _{2},...,\omega _{i}].T$ ，b叫做偏置（bias）， $\omega \cdot x$ 表示 $\omega$ 和x的内积，sign是符号函数，即 $sign\left ( x \right )=\left\{\begin{matrix} +1,x\geqslant 0 & \\ -1,x< 0 & \end{matrix}\right.$

感知机模型对应于特征空间中的分离超平面： $\omega \cdot x+b=0$

感知机对应于特征空间中将实例划分为正负两类的一个分离超平面S，其中 $\omega$ 是超平面的法向量，b是超平面的截距。而这个超平面将特征空间划分为两个部分，位于两部分的点（特征向量）分别被称为正负两类，输入为实例的特征向量，输出为实例的类别，取+1和-1。所以这个超平面S称为分离超平面。

感知机使用一个超平面把实例分为正负类，但一些数据集并不是线性可分的，所以任何超平面都不能正确地将所有实例进行分类。

总的来说，通过训练感知机模型将实例点进行分类，如红豆绿豆混合后进行分类，届时需要一个超平面将两类划分并进行标记为+1和-1。

import numpy as np


def perceptron(x1, x2):
    x = np.array([x1, x2])  # 特征向量
    w = np.array([0.3, 0.7])  # 权值
    b = -0.3   # 偏置
    f = np.sum(w * x) + b  # 感知机模型一般形式
    # f = np.dot(w, x) + b
    # 通过模型训练对实例进行划分
    if f >= 0:
        return 1  # 正类
    else:
        return -1  # 负类


# 输入特征向量 x
for x in [(0, 0), (1, 0), (0, 1), (1, 1)]:
    y = perceptron(x[0], x[1])
    print(str(x) + '-->' + str(y))

(0, 0)-->-1
(1, 0)-->1
(0, 1)-->1
(1, 1)-->1

二、感知机学习策略

1、数据集的线性可分性

如果存在某个超平面S能将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，即对所有 $y_{i}=+1$ 的实例 i，有 $\omega \cdot x_{i}+b>0$ ，对所有 $y_{i}=-1$ 的实例，有 $\omega \cdot x_{i}+b<0$ ，则称数据集为线性可分数据集；否则，称数据集线性不可分。在现实中，这种数据集是理想的，存在可能小。

2、感知机学习策略

为了找到这样的超平面，即确定感知机模型参数 $\omega$ ，b，需要确定一个学习策略，这个学习策略即是定义损失函数并将损失函数极小化。感知机一般采用的有：损失函数的一个自然选择是误分类点的总数，损失函数的另一个选择是误分类点 $x_{0}$ 到超平面S的总距离。而前者损失函数不是参数 $\omega$ ，b的连续可导函数，不易优化。这样，假设超平面S的误分类点集合为M，那么就可得到所有误分类点到超平面S的总距离，从而得出感知机学习的损失函数。此时给定训练数据集的情况下，损失函数 $L\left ( \omega ,x \right )$ 是 $\omega$ ，b的连续可导函数。

极小化损失函数： $L\left ( \omega ,b \right )=-\sum_{x_{i}\epsilon M}^{}y_{i}\left ( \omega \cdot x_{i}+b \right )$

其中，M为误分类点的集合，这个损失函数其实就是感知机学习的经验风险函数。感知机学习的策略是在假设空间中选取使损失函数最小的模型参数 $\omega$ ，b就是感知机模型，对应于误分类点到分离超平面的总距离。

损失函数是非负的。如果没有误分类点，损失函数值是0。误分类点越少，误分类点离超平面越近，损失函数值就越小。一个特定的样本点的损失函数：在误分类时是参数 $\omega$ ，b的线性函数，在正确分类时是0。

感知机学习策略是极小化损失函数。为能够正确地分类，需要找到一个分离超平面将实例点完全正确地划分，要找到该超平面就要求解这个分离超平面即 $\omega \cdot x+b=0$ 中的参数 $\omega$ ，b；x是输入的特征向量。但是由于分类时不能确保可以完全正确地被分类而存在一定的误差，此时需要一个学习策略即是损失函数，使误差减小到最小，就是使损失函数最小。

三、感知机学习算法

在取值范围内学习到合适的值，使得模型对给定的输入特征向量计算得到的输出即预测值，尽可能的正确，这样的算法就是感知机模型的学习算法。

感知机是一种误差驱动的学习算法。如果预测正确，感知机算法将继续预测下一个实例；如果预测错误，算法将更新权重，即对 $\omega ,b$ 进行更新。

1、感知机学习算法的原始形式

感知机学习算法是误分类驱动的，具体采用随机梯度下降法。首先任意选取一个超平面 $\omega _{0},b_{0}$ ，然后用梯度下降法不断地极小化损失函数致使最小值。极小化过程中不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

随机选取一个误分类点 $\left ( x_{i},y_{i} \right )$ ，对 $\omega ,b$ 进行更新： $\omega \leftarrow \omega +\eta y_{i}x_{i},b\leftarrow b+\eta y_{i}$

# 初始化参数 w, b
w = np.array([0.3, 0.7]) # 权值w
b = -0.3  # 偏置b
# 设定学习率 η
learning_rate = 0.6

# 对w，b进行更新
def update_weights(x, y, w, b):
    w = w + learning_rate * y * x
    b = b + learning_rate * y
    return w, b

其中 $\eta \left ( 0< \eta \leq 1 \right )$ 是步长，又称为学习率。通常情况下，学习算法通过设定学习率来用于调节更新参数时的幅度。通过迭代可以期待损失函数不断减小，直到为0。

解释：当一个实例点被误分类，即位于分离超平面的错误一侧时，则调整 $\omega ,b$ 的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过该误分类点使其正确分类。

要使损失函数最小，使用的方法是梯度下降法。梯度下降就是对误分类点进行更新，从而改变参数 $\omega$ ，b的值，即找到分离超平面。在更新过程中，为了限制 $\omega$ ，b的值变化幅度，设置一个学习率进行调节幅度大小。

2、算法的收敛性

每遍历一遍所有的训练实例称它为一个训练周期（epoch）。如果学习算法在一个训练周期内对所有的训练实例分类正确，则达到收敛状态。（学习算法并非一定保证能够收敛，因此学习算法需要一个超参数来指定算法终止之前能够完成的最大可训练周期。）

经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型，说明当训练数据集线性可分时，感知机学习算法原始形式迭代是收敛的；那么当训练数据集线性不可分时，感知机学习算法不收敛，迭代结果回发生震荡。但由于采用不同的初值或选取不同的误分类点，解可以不同；就是说感知机学习算法存在许多解，这些解既依赖于初值的选择，也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面，需要对分离超平面增加约束条件。

3、感知机学习算法的对偶形式

基本想法：将 $\omega ,b$ 表示为实例 $x_{i}$ 和标记 $y_{i}$ 的线性组合的形式，通过求解其系数而求得 $\omega ,b$ 。实例点更新次数越多，意味着它距离分离超平面越近，也就越难正确分类，此时的实例对学校结果影响最大。与原始形式一样，感知机学习算法的对偶形式迭代是收敛的，存在多个解。