《ESL》学习笔记-第二章 监督学习概述

版权声明:转载请注明原文地址 https://blog.csdn.net/qq_36896914/article/details/83828229

变量的类型

定量变量Y

  • 举例:身高,体重
  • 编码方式:标量

定性变量G

分类

  • 有序定性变量
  • 无序定性变量

举例

  • 有序定性变量:物体体积定性描述(小,中,大);
  • 无序定性变量:物体的颜色(红,绿,蓝)

编码方式

  • 二类定性变量:0-1编码或者(-1)-1编码
  • 多类定性变量:独热编码(one-hot)——k类可以用一组k维向量表示,向量中只有某一维的值为1,其余为0,比如 ( 0 , 0 , 1 ) (0,0,1) 指示属性“大”, ( 0 , 1 , 0 ) (0,1,0) 指示属性“中”, ( 1 , 0 , 0 ) (1,0,0) 指示属性“小”。

两种最简单的估计模型

线性模型(使用最小二乘估计)

线性模型

假设输入向量为 x = ( x 1 ; x 2 ; . . . ; x n ) x=(x_1;x_2;...;x_n) ,设 x ^ = ( x ; 1 ) \hat x=(x;1) ,则预测的输出表示为:
y ^ = x ^ T β ^ \hat y=\hat x^T\hat \beta
β ^ \hat \beta 为待估计参数。

最小二乘的解

β ^ = ( X T X ) 1 X T y \hat \beta=(X^TX)^{-1}X^T\vec y
问题:如何使用矩阵求导得到最小二乘的解?

聚类模型(使用最近邻估计)

k-NN模型(k近邻)

y ^ = 1 k x i N k ( x ) y i \hat y=\frac{1}{k}\sum_{x_i\in N_k(x)}y_i
当k=1时即为最近邻模型

模型含义

对应了特征空间的划分

  • 当k=1时,特征空间被划分为若干子空间,每个子空间包含且仅包含一个训练样本点,子空间内所有点的输出标记和训练样本点保持一致。
  • 当k>1时,特征空间的划分变得复杂,但还是运用邻域的思想。

两种模型的差异

  • 最小二乘模型比较稳定,但预测不准(方差小,偏差大)
  • 最近邻模型预测较准,但不稳定,易受训练集噪声干扰(方差大,偏差小)

模型的类型

  • 决策式:用决策函数 y = f ( x ) y=f(x) 表征,上面介绍的两种模型均为决策式模型。
  • 生成式:用条件概率 f ( y x ) f(y|x) 表征,可以描述输入输出间更为复杂的依赖关系。

统计决策论

期望预测误差

L ( x ) L(x) 表示损失函数,则期望预测误差表示为:
E P E ( f ) = E T [ L ( y f ( x ) ) ] EPE(f)=E_T[L(y-f(x))]
E P E ( f ) EPE(f) 是选择决策函数 f f 的重要判断依据

偏差-方差分解

当损失函数为平方损失函数时,预测问题为回归问题时, E P E ( f ) EPE(f) 可以分解为偏差与方差之和。此时, E P E ( f ) EPE(f) M S E ( f ) MSE(f) (均分误差),并有
M S E ( x 0 ) = E T [ f ( x 0 ) y ^ 0 ] 2 = E T [ y ^ 0 E T ( y ^ 0 ) ] 2 + E T [ E T ( y ^ 0 ) f ( x 0 ) ] 2 MSE(x_0)=E_T[f(x_0)-\hat y_0]^2=E_T[\hat y_0-E_T(\hat y_0)]^2+E_T[E_T(\hat y_0)-f(x_0)]^2
其中 f ( x ) f(x) 表示真实函数,分解的两项中前者为方差,后者为偏差。

高维情况下的局部方法

高维带来的问题

  • 弱化了“邻域”的概念,使得邻域在单一维度下的表现不像邻域。(需要覆盖单一维度下足够大的跨度)
  • 使得靠近样本空间边界的样本点的比例增多
  • 容易造成样本空间的稀疏性
  • 使均分误差变大1

结构化回归模型

E P E ( f ) EPE(f) 中引入表征结构复杂度的罚项,实际上是将对解空间模糊性的克服转换为对约束条件(罚项)的选择


  1. 均方误差可以分解为偏差和方差之和,在不同的情况下,起支配作用的对象不同,比如当真实函数用到输入数据的多维情况时,偏差容易起到支配作用;而当真实函数仅仅用到输入数据的少量维度时,方容易起到支配作用。 ↩︎

猜你喜欢

转载自blog.csdn.net/qq_36896914/article/details/83828229
今日推荐