统计学习方法 | k近邻法

01 起

K近邻法（KNN）是一种基本的分类与回归方法

分类这种需求，渗透到我们生活的方方面面：

根据学生德智体美成绩，将学生分为几类

根据一个县城的GDP、人口密度等数据，将全国的县城分为多个类别

根据客户的信用、收入、生活习惯将客户分为多个类别

……

分类算法可以帮助我们完成这些繁琐的操作，并根据我们的要求不断修正分类结果。

分类算法其实蛮多的，这里顺着书本顺序，详细讲解KNN算法，再与K-Means、K-Means++算法进行简单对比。

02 KNN算法

k近邻法是这样一个过程：

给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类（多数表决argmax），就把该输入实例分为这个类。

过程其实很好理解，描述成可量化的算法，就是这样的：

KNN是一种懒惰算法，平时不好好学习，考试（对测试样本分类）时才临阵磨枪（临时去找k个近邻）。

懒惰的后果：构造模型很简单，但在对测试样本分类的开销大，因为要扫描全部训练样本并计算距离。

理解算法后，我们来看看k近邻法的优缺点：

优点：易于实现，无需估计参数，无需训练，支持增量学习，能对超多边形的复杂决策空间建模

缺点：计算量较大，分析速度慢（因为要扫描全部训练样本并计算距离）

03 KNN vs K-Means vs K-Means++

开头我们说到，分类算法很多，KNN只是其中一种，下面我们将KNN算法与K-Means、K-Means++进行对比，便于我们更好地理解算法。

KNN
给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类（多数表决argmax），就把该输入实例分为这个类。

K-Means
不断地聚类<–>划分过程
（1）对于一组数据集，任意选取k个点作为质心，将数据集中的点归为离其最近的质心一类，此时数据集被划分为k个类；
（2）对这k个类，重新寻找各类的质心；
（3）根据新产生的质心，按照（1）继续聚类，然后再根据聚类重新计算各类质心，直到质心不再改变，分类完成。

下面的图可以很直观地展示整个分类过程

需要注意的是，此图示展示的K-Means聚类过程，第一步选取的红蓝两点质心是错的，质心应该是训练数据集中的点，后面的步骤没有问题

K-Means++
与K-Means算法相同，除了第一步初始质心的选择：选择初始质心时并不是随机选择，而是选择尽量相互分离的质心，即，下一个质心点总是离上一个质心点较远的点。

04 KNN三要素

距离度量、k值、分类决策规则，是k近邻法地三要素，下面分别介绍。

距离度量
衡量特征空间中两个实例点的距离，度量方法一边用Lp距离，p取不同值时，分别有不同地名称，常用欧氏距离作为距离度量。

Lp距离
欧氏距离(p=2)
曼哈顿距离(p=1)
p无穷

不同的距离度量，得到的实例点之间的距离是不同的，下面的图给出了二维空间中，p取不同值时，与原点的Lp距离为1的点的集合图形，可以看到，欧氏距离对应的是圆。

k值

k值得选择，反映了对近似误差与估计误差之间的权衡。

近似误差
类比于训练误差，关注训练集。近似误差越小，说明模型对训练集的预测越好，但近似误差过小容易出现过拟合，降低模型对于测试集的预测准确性。
估计误差
类比于测试误差，关注测试集。估计误差越小，说明模型对未知数据预测越好，模型越接近真实模型，过小的近似误差会导致模型过拟合，使得模型对于未知数据的预测变差（估计误差变大）
k值过小
- 近似误差会减小，估计误差会增大
- 易产生过拟合
- 噪声敏感：如果邻近的实例点恰好是噪声，预测就会出错。
k值过大
- 可以减少估计误差，但近似误差会增大
- 极端情况，k=样本点数N，无论输入实例如何，都将被简单归为训练集中最多的类，忽略了大量有用信息