变量的类型

定量变量Y

举例：身高，体重
编码方式：标量

定性变量G

举例

有序定性变量：物体体积定性描述（小，中，大）；
无序定性变量：物体的颜色（红，绿，蓝）

编码方式

二类定性变量：0-1编码或者(-1)-1编码
多类定性变量：独热编码（one-hot）——k类可以用一组k维向量表示，向量中只有某一维的值为1，其余为0，比如 $(0,0,1)$ 指示属性“大”， $(0,1,0)$ 指示属性“中”， $(1,0,0)$ 指示属性“小”。

两种最简单的估计模型

线性模型（使用最小二乘估计）

线性模型

假设输入向量为 $x=(x_1;x_2;...;x_n)$ ，设 $\hat x=(x;1)$ ,则预测的输出表示为：
$\hat y=\hat x^T\hat \beta$
$\hat \beta$ 为待估计参数。

最小二乘的解

$\hat \beta=(X^TX)^{-1}X^T\vec y$
问题：如何使用矩阵求导得到最小二乘的解？

聚类模型（使用最近邻估计）

k-NN模型（k近邻）

$\hat y=\frac{1}{k}\sum_{x_i\in N_k(x)}y_i$
当k=1时即为最近邻模型

模型含义

对应了特征空间的划分

当k=1时，特征空间被划分为若干子空间，每个子空间包含且仅包含一个训练样本点，子空间内所有点的输出标记和训练样本点保持一致。
当k>1时，特征空间的划分变得复杂，但还是运用邻域的思想。

两种模型的差异

最小二乘模型比较稳定，但预测不准（方差小，偏差大）
最近邻模型预测较准，但不稳定，易受训练集噪声干扰（方差大，偏差小）

模型的类型

决策式：用决策函数 $y=f(x)$ 表征，上面介绍的两种模型均为决策式模型。
生成式：用条件概率 $f(y|x)$ 表征，可以描述输入输出间更为复杂的依赖关系。

统计决策论

期望预测误差

设 $L(x)$ 表示损失函数，则期望预测误差表示为：
$EPE(f)=E_T[L(y-f(x))]$
而 $EPE(f)$ 是选择决策函数 $f$ 的重要判断依据

偏差-方差分解

当损失函数为平方损失函数时，预测问题为回归问题时， $EPE(f)$ 可以分解为偏差与方差之和。此时， $EPE(f)$ 即 $MSE(f)$ （均分误差），并有
$MSE(x_0)=E_T[f(x_0)-\hat y_0]^2=E_T[\hat y_0-E_T(\hat y_0)]^2+E_T[E_T(\hat y_0)-f(x_0)]^2$
其中 $f(x)$ 表示真实函数，分解的两项中前者为方差，后者为偏差。

高维情况下的局部方法

高维带来的问题

弱化了“邻域”的概念，使得邻域在单一维度下的表现不像邻域。（需要覆盖单一维度下足够大的跨度）
使得靠近样本空间边界的样本点的比例增多
容易造成样本空间的稀疏性
使均分误差变大¹

结构化回归模型

在 $EPE(f)$ 中引入表征结构复杂度的罚项，实际上是将对解空间模糊性的克服转换为对约束条件（罚项）的选择

均方误差可以分解为偏差和方差之和，在不同的情况下，起支配作用的对象不同，比如当真实函数用到输入数据的多维情况时，偏差容易起到支配作用；而当真实函数仅仅用到输入数据的少量维度时，方容易起到支配作用。 ↩︎

《ESL》学习笔记-第二章监督学习概述

文章目录

变量的类型

定量变量Y

定性变量G

分类

举例

编码方式

两种最简单的估计模型

线性模型（使用最小二乘估计）

线性模型

最小二乘的解

聚类模型（使用最近邻估计）

k-NN模型（k近邻）

模型含义

两种模型的差异

模型的类型

统计决策论

期望预测误差

偏差-方差分解

高维情况下的局部方法

高维带来的问题

结构化回归模型

猜你喜欢

《ESL》学习笔记-第二章 监督学习概述

文章目录

变量的类型

定量变量Y

定性变量G

分类

举例

编码方式

两种最简单的估计模型

线性模型（使用最小二乘估计）

线性模型

最小二乘的解

聚类模型（使用最近邻估计）

k-NN模型（k近邻）

模型含义

两种模型的差异

模型的类型

统计决策论

期望预测误差

偏差-方差分解

高维情况下的局部方法

高维带来的问题

结构化回归模型

猜你喜欢

《ESL》学习笔记-第二章监督学习概述