统计学习方法笔记(七)k近邻法

k近邻法

输入为特征向量,输出为多个类别。在k近邻法中,实例的类别已定,分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。
其基本要素为k值的选择、距离度量以及分类决策规则。

k近邻算法

  1. 简单描述:给定一个训练集,对新的输入实例,找到与其最邻近的k个实例,这k个实例的多数属于哪个类,该输入实例就被分为哪个类
  2. 算法:
    输入:训练数据集;输出:某个实例所属的类别
    1)根据给定的距离度量,找到与 x 最邻近的k个点,涵盖这k个点的邻域称为 N k ( x )
    2)在 N k ( x ) 中根据分类决策规则决定 x 的类别
    y = arg max c j x i N k ( x ) I ( y i = c j ) , i = 1 , 2 , , K

k近邻模型

  1. 一般所用的距离度量为p=1,p=2或者p=无穷,其对应图形为:
    这里写图片描述
  2. k值的选择:
    k值较小,则近似误差会减小,但估计误差会增大,预测结果会对附近的实例点非常敏感,也就是说,k值越小,意味着模型越复杂
    k值较大,近似误差会比较大,但估计误差会减小,这时较远的训练示例也会对预测起作用,使预测发生错误,k值越大,意味着模型越简单
  3. 分类决策规则:多数表决规则,等价于经验风险最小化

k近邻法的实现:k近邻树

上文中,已经将k近邻法的实现步骤基本讲解清楚,唯一的问题是,怎么快速的找到k个近邻点,这就需要通过k近邻树来实现搜索,通过以下示例给出:
这里写图片描述
这里写图片描述

猜你喜欢

转载自blog.csdn.net/yeyustudy/article/details/79354422
今日推荐