李航《统计学习方法》学习笔记(第 3 章 k 近邻法)

第 3 章 k 近邻法

  近邻法(k-nearest neighbor, k-NN)是一种基本分类与回归方法。本书只讨论分类问题中的 k 近邻法。 k 近邻法的输入为实例的特征向量,对应于特征空间中的点;输出为实例的类别,可以取多类。 k 近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此, k 近邻法不具有显示的学习过程。 k 近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。k 值的选择、距离度量及分类决策规则是 k 近邻法的三个基本要素。 k 近邻法 1968 年由 Cover 和 Hart 提出。

3.1 k 近邻算法

   k 近邻算法简单、直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k 个实例,这 k 个实例的多数属于某个类,就把该输入实例分为这个类。

3.2 k 近邻模型

   k 近邻法使用的模型实际上对应于对特征空间的划分。模型由三个基本要素——距离度量、k 值的选择和分类决策规则决定。

3.2.1 模型

   k 近邻法中,当训练集、距离度量(如欧氏距离)、k 值以及分类决策规则(如多数表决)确定后,对于任何一个新的输入实例,它所属的类唯一地确定。

3.2.2 距离度量

  特征空间中两个实例点的距离是两个实例点相似程度的反映。 k 近邻模型的特征空间一般是 n 维实数向量空间 R n 。使用的距离是欧式距离,但也可以是其他距离,如更一般的 L p 距离( L p distance)或 Minkowski 距离(Minkowski distance)。

3.2.3 k 值的选择

  k 值的选择会对 k 近邻法的结果产生重大影响。
  在应用中, k 值一般取一个较小的数值。通常采用交叉验证法来选取最优的 k 值。

3.2.4 分类决策规则

   k 近邻法中的分类决策规则往往是多数表决,即由输入实例的 k 个邻近的训练实例中的多数类决定实例的类。

3.3 k 近邻法的实现:kd 树

  实现 k 近邻法时,主要考虑的问题是如何对训练数据进行快速 k 近邻搜索。
  为了提高 k 近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数。具体方法很多,下面介绍其中的 kd 数(kd tree)方法。

3.3.1 构造 kd 树

  kd 树是一种对 k 维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd 树是二叉树,表示对 k 维空间的一个划分(partition)。构造 kd 树相当于不断地用垂直于坐标轴的超平面将 k 维空间切分,构成一系列的 k 维超矩形区域。kd 树的每个结点对应于一个 k 维超矩形区域。
  构造 kd 树的方法如下:构造根结点,使根结点对应于 k 维空间中包含所有实例点的超矩形区域;通过下面的递归方法,不断地对 k 维空间进行切分,生成子结点。在超矩形区域(结点)上选择一个坐标轴和在此坐标轴上的一个切分点,确定一个超平面,这个超平面通过选定的切分点并垂直于选定的坐标轴,将当前超矩形区域且分为左右两个子区域(子结点);这时,实例被分到两个子区域。这个过程直到子区域内没有实例时终止(终止时的结点为叶结点)。在此过程中,将实例保存在相应的结点上。
  通常,依次选择坐标轴对空间切分,选择训练实例点在选定坐标轴上的中位数(median)为切分点,这样得到的 kd 树是平衡的。注意,平衡的 kd 树搜索时的效率未必是最优的。

3.3.2 搜索 kd 树

  下面介绍如何利用 kd 树进行 k 近邻搜索。可以看到,利用 kd 树可以省去对大部分数据点的搜索,从而减少搜索的计算量。这里以最近邻为例加以叙述,同样的方法可以应用到 k 近邻。
  给定一个目标点,搜索其最近邻。首先找到包含目标点的叶结点;然后从该叶结点出发,一次回退到父结点;不断查找与目标点最邻近的结点,当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上,效率大为提高。
  包含目标点的叶结点对应包含目标点的最小超矩形区域。以此叶结点的实例作为当前最近点。目标点的最近邻一定在以目标点为中心并通过当前最近点的超球体的内部。然后返回当前结点的父结点,如果父结点的另一子结点的超矩形区域与超球体相交,那么在相交的区域内寻找与目标点更近的实例点。如果存在这样的点,将此点作为新的当前最近点。算法转到更上一级的父结点,继续上述过程。如果父结点的另一子结点的超矩形区域与超球体不相交,或不存在比当前最近点更近的点,则停止搜索。

猜你喜欢

转载自blog.csdn.net/benzhujie1245com/article/details/82500074