【统计学习方法-李航-笔记总结】三、k近邻法

本文是李航老师《统计学习方法》第三章的笔记，欢迎大佬巨佬们交流。

主要参考博客：https://blog.csdn.net/u013358387/article/details/53327110

主要包括以下几部分：

1. k近邻算法

2. k近邻模型

3. kd树

1. k近邻算法

k 近邻算法简单、直观：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的 k 个实例，这 k 个实例的多数属于某个类，就把该输入实例分为这个类。

具体例子描述如下：

如上图所示，蓝色正方形表示一个类别，红色三角形表示另一个类别，绿色圆圈表示待分类的样本。按照KNN算法，首先我们给k一个值，假设为5，那么如图所示，与绿色圆圈距离最近的5个样本都在虚线圆之内，这五个样本中数量最多的为蓝色正方形所表示的类别，此时绿色圆圈的类别与蓝色正方形相同。同理，假设k为3，此时实线圆之内数量最多的为红色三角形，那么绿色圆圈的类别就与红色三角形的类别相同。

算法过程描述：

当k=1时，称为最近邻算法。

2. k近邻模型

K近邻模型由三个基本要素组成：距离度量，k值选择，分类决策规则

2.1 模型

k 近邻法中，当训练集、距离度量（如欧氏距离）、k 值以及分类决策规则（如多数表决）确定后，对于任何一个新的输入实例，它所属的类唯一地确定。这相当于根据上述要素将特征空间划分为一些子空间，确定子空间里每个点所属的类。

2.2 距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。k近邻模型的特征空间一般是 n 维实数向量空间 $R^n$ 。使用的距离是欧式距离，但也可以是其他距离，如更一般的 $L_{p}$ 距离（Lp distance）或 Minkowski 距离（Minkowski distance）。

设特征空间X是n维实数向量空间 $R^n$ ， $x_{i}, x_{j} \in X$ , $x_{i} = (x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)}), x_{j} = (x_{j}^{(1)},x_{j}^{(2)},...,x_{j}^{(n)})$ , $x_{i},x_{j}$ 的 $L_{p}$ 距离为：

，p≥1

当p＝2时，称为欧氏距离：

当p = 1时，称为曼哈顿距离：

当p = ∞时，它是各个坐标距离的最大值：

下图给出了二维空间中p取值不同时，与原点的 $L_{p}$ 距离为1的点的图形：

2.3 k值的选择

k值得选择会对k近邻算法的结果产生重大影响：
如果选择的k值较小，就相当于用较小的的邻域中的训练实例进行预测。此时近似误差会减小，但是估计误差会增大，预测的结果会对近邻的实例点非常敏感。若邻近点是噪声点则预测错误。
如果选择较大的k值，就相当于在较大的邻域中训练实例进行预测。此时，与输入实例较远的训练实例也会对预测起作用，使预测发生错误。
如果k等于训练样本个数，此时将输入实例简单的预测为训练样本中最多的类。这时模型过于简单，会完全忽略训练样本中的大量有用信息，是不可取的。
在应用中，k值一般选取一个比较小的数值，通常采用交叉验证法来选取最优的k值。

2.4 分类决策规则

k近邻算法中分类决策规则往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

多数表决规则等价于经验风险最小化，解释如下：

若分类的损失函数是0-1损失，则分类函数为：

那么误分类的概率为：

对于给定的实例x，其最近邻的k个训练实例点构成集合 $N_{k}(x)$ ，若涵盖 $N_{k}(x)$ 的区域类别是 $c_{j}$ ,则误分类率是：

要使误分类率最小即经验风险最小。

3. k近邻法的实现：kd树

k近邻法的实现主要考虑的是如何对训练数据进行快速k近邻搜索，为提高搜索效率，可以考虑用特殊的存储结构存储训练数据，以减少计算距离的次数，如下述kd树。

3.1 构造 kd 树

kd 树是一种对 k 维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd 树是二叉树，表示对 k 维空间的一个划分（partition）。构造 kd 树相当于不断地用垂直于坐标轴的超平面将 k 维空间切分，构成一系列的 k 维超矩形区域。kd 树的每个结点对应于一个 k 维超矩形区域。
构造 kd 树的方法如下：构造根结点，使根结点对应于 k 维空间中包含所有实例点的超矩形区域；通过下面的递归方法，不断地对 k 维空间进行切分，生成子结点。在超矩形区域（结点）上选择一个坐标轴和在此坐标轴上的一个切分点，确定一个超平面，这个超平面通过选定的切分点并垂直于选定的坐标轴，将当前超矩形区域且分为左右两个子区域（子结点）；这时，实例被分到两个子区域。这个过程直到子区域内没有实例时终止（终止时的结点为叶结点）。在此过程中，将实例保存在相应的结点上。
通常，依次选择坐标轴对空间切分，选择训练实例点在选定坐标轴上的中位数（median）为切分点，这样得到的 kd 树是平衡的。注意，平衡的 kd 树搜索时的效率未必是最优的。

例如，构造平衡kd树的算法如下：

3.2 搜索 kd 树

下面介绍如何利用 kd 树进行 k 近邻搜索。可以看到，利用 kd 树可以省去对大部分数据点的搜索，从而减少搜索的计算量。这里以最近邻为例加以叙述，同样的方法可以应用到 kk 近邻。
给定一个目标点，搜索其最近邻。首先找到包含目标点的叶结点；然后从该叶结点出发，一次回退到父结点；不断查找与目标点最邻近的结点，当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上，效率大为提高。
包含目标点的叶结点对应包含目标点的最小超矩形区域。以此叶结点的实例作为当前最近点。目标点的最近邻一定在以目标点为中心并通过当前最近点的超球体的内部。然后返回当前结点的父结点，如果父结点的另一子结点的超矩形区域与超球体相交，那么在相交的区域内寻找与目标点更近的实例点。如果存在这样的点，将此点作为新的当前最近点。算法转到更上一级的父结点，继续上述过程。如果父结点的另一子结点的超矩形区域与超球体不相交，或不存在比当前最近点更近的点，则停止搜索。

用kd树的最近邻搜索算法描述如下：

例子：

【统计学习方法-李航-笔记总结】三、k近邻法

猜你喜欢