版权声明:转载请注明原文地址 https://blog.csdn.net/qq_36896914/article/details/83828229
文章目录
变量的类型
定量变量Y
- 举例:身高,体重
- 编码方式:标量
定性变量G
分类
- 有序定性变量
- 无序定性变量
举例
- 有序定性变量:物体体积定性描述(小,中,大);
- 无序定性变量:物体的颜色(红,绿,蓝)
编码方式
- 二类定性变量:0-1编码或者(-1)-1编码
- 多类定性变量:独热编码(one-hot)——k类可以用一组k维向量表示,向量中只有某一维的值为1,其余为0,比如 指示属性“大”, 指示属性“中”, 指示属性“小”。
两种最简单的估计模型
线性模型(使用最小二乘估计)
线性模型
假设输入向量为
,设
,则预测的输出表示为:
为待估计参数。
最小二乘的解
问题:如何使用矩阵求导得到最小二乘的解?
聚类模型(使用最近邻估计)
k-NN模型(k近邻)
当k=1时即为最近邻模型
模型含义
对应了特征空间的划分
- 当k=1时,特征空间被划分为若干子空间,每个子空间包含且仅包含一个训练样本点,子空间内所有点的输出标记和训练样本点保持一致。
- 当k>1时,特征空间的划分变得复杂,但还是运用邻域的思想。
两种模型的差异
- 最小二乘模型比较稳定,但预测不准(方差小,偏差大)
- 最近邻模型预测较准,但不稳定,易受训练集噪声干扰(方差大,偏差小)
模型的类型
- 决策式:用决策函数 表征,上面介绍的两种模型均为决策式模型。
- 生成式:用条件概率 表征,可以描述输入输出间更为复杂的依赖关系。
统计决策论
期望预测误差
设
表示损失函数,则期望预测误差表示为:
而
是选择决策函数
的重要判断依据
偏差-方差分解
当损失函数为平方损失函数时,预测问题为回归问题时,
可以分解为偏差与方差之和。此时,
即
(均分误差),并有
其中
表示真实函数,分解的两项中前者为方差,后者为偏差。
高维情况下的局部方法
高维带来的问题
- 弱化了“邻域”的概念,使得邻域在单一维度下的表现不像邻域。(需要覆盖单一维度下足够大的跨度)
- 使得靠近样本空间边界的样本点的比例增多
- 容易造成样本空间的稀疏性
- 使均分误差变大1
结构化回归模型
在 中引入表征结构复杂度的罚项,实际上是将对解空间模糊性的克服转换为对约束条件(罚项)的选择
均方误差可以分解为偏差和方差之和,在不同的情况下,起支配作用的对象不同,比如当真实函数用到输入数据的多维情况时,偏差容易起到支配作用;而当真实函数仅仅用到输入数据的少量维度时,方容易起到支配作用。 ↩︎