【机器学习笔记】《统计学习方法》第三章 k近邻算法+kd树

主要参考书目《统计学习方法》第2版，清华大学出版社
参考书目 Machine Learning in Action, Peter Harrington
用于考研复试笔记，所以写的很简洁，自己能看懂就行。有学习需求请绕道，参考吴恩达机器学习或以上书籍，讲得比大多数博客好。

概念

输入：训练数据集
$T=\{(x_1,y_1),(x_2,y_x),...,(x_N,y_N)\}$
其中， $x_i \in \chi \subset R_n$ 为实例的特征向量， $y_i\subset Y=\{c_1,c_2,...,c_k\}$ 为实例的类别， $i = 1, 2, . . ., N;$ 实例特征向量 $x$ ：
输出：实例 $x$ 所属的类 $y$
(1)根据给定的距离度量，在训练集 $T$ 中找出与 $x$ 最邻近的 $k$ 个点，涵盖这 $k$ 个点的 $x$ 的邻域记作 $N_k(x)$
(2)在 $N_k(x)$ 中根据分类决策规则（如多数表决）决定 $x$ 的类别 $y$ ：
$y=\argmax\limits_{c_j}\sum\limits_{x_i \in N_k(x)}I(y_i=c_j), i = 1,2,...,N;j=1,2,...,K$
$I$ 为指示函数，当 $y_=c_j$ 时 $I$ 为1，否则 $I$ 为0.

本质是找距离最近的k个点构成集合，这个集合中最多的种类就是 $x$ 的种类。

$k$ 近邻法的特殊情况是 $k = 1$ 的情形。
$k$ 近邻没有显式的学习过程。

距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映。 $k$ 近邻模型的特征空间一般是 $n$ 维实数向量空间 $R^n$ 。使用的距离是欧式距离，但也可以是其他距离，如更一般的 $L_p$ 距离或Minkowski距离。
设特征空间 $\chi$ 是 $n$ 维实数向量空间 $R^n$ ， $x_i,x_j \in \chi，x_i=(x_i^{(1)}，x_i^{(2)}，...，x_i^{(n)})^T，x_j=(x_j^{(1)}，x_j^{(2)}，...，x_j^{(n)})^T$ ， $x_i,x_j$ 的 $L_p$ 距离定义为
$L_p(x_i,x_j)=(\sum\limits_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}}$
特别地，当 $p=\infin$ 时，它是各个坐标距离地最大值，即
$L_{\infin}(x_i,x_j)=\max\limits_{l}|x_i^{(l)}-x_j^{(l)}|$

原理

k值的选择

k值较小容易发生过拟合

kd树

为了提高 $k$ 近邻搜索的效率，可以考虑使用特殊的结构存储训练数据，以减少计算距离的次数。具体方法有很多，下面介绍其中一种的 $k d$ 树(kd tree)方法。

k-d tree是每个节点均为k维数值点的二叉树，其上的每个节点代表一个超平面，该超平面垂直于当前划分维度的坐标轴，并在该维度上将空间划分为两部分，一部分在其左子树，另一部分在其右子树。即若当前节点的划分维度为d，其左子树上所有点在d维的坐标值均小于当前值，右子树上所有点在d维的坐标值均大于等于当前值。

kd树的构造
对深度为 $j$ 的结点，选择 $x^{(l)}$ 为切分的坐标轴， $l=j(mod\ k)+1$ ,然后划分为左子树和右子树递归构造

kd树的查找
在这里插入图片描述
时间复杂度 $O (l o g (N))$

疑问
上图中第一次查找时，(8,1)确实更远，但是如果改成(7,4)还需要搜索右边的点吗。
答：不可能出现这种情况。上面描述有误吗，不能拿(8,1)参考，而是应该拿(9,6)参考，因为按照划分的顺序，(9,6)是父节点。也不可能出现疑问中的情况。

代码

不想写了。。累了。
贴一个掉包，kd-tree的代码有空再补。。主要是py不熟。

import numpy as np
from sklearn.neighbors import KDTree

np.random.seed(0)
points = np.random.random([15,2])
tree = KDTree(points)
point = points[0]
print(points)
print(point)
print("========================")
dists, indices = tree.query([point], k = 3)
p