-
作者:jliang
1.重点归纳
1)统计学三要素
(1)模型:就是所要学习的条件概率分布或决策函数
(2)策略:从假设空间中选取最优模型,需要考虑按照什么样的准则学习或选择最优的模型
(3)算法:求解最优化问题的算法
2)损失函数(loss function)或代价函数(cost function)用来度量预测错误的程度,损失函数越小越好。常见的损失函数:
- 0-1损失函数(0-1 loss function)
- 平方损失函数(quadratic loss function)
- 绝对损失函数(absolute loss function)
- 对数损失函数(logarithmic loss funcion)
3)学习的损失函数未必是评估时使用的损失函数。
4)训练误差的大小反映了模型对训练数据学习的好坏,测试误差反映了学习方法对未知的测试数据集的预测能力。
5)正则化是结构风险最小策略的实现,是在经验风险上加了一个正则化项或罚项。
- L1范数:L1是绝对值最小,趋向于产生少量的特征,而其它特征为0。
- L2范数:L2是平方最小,会选择更多的特征,这些特征都会接近0。
6)判别式模型与生成式模式
(1)判别式模型(直接判断是否有判别边界)
- 对条件概率P(Y|X)建模。
- 对所有样本只构建一个模型,确定总体判别边界。
- 观测到输入什么特征,就预测最优可能的类标。
- 例子:LR、决策树、最大熵、条件随机场
(2)生成式模式
- 对联合概率P(X, Y)建模
- 分类问题中,每种类标都需要进行建模,最终选择最优概率的类标,没有判别边界
- 例子:朴素贝叶斯、贝叶斯网络、pLSA、LDA和隐马尔科夫模型
2.统计学习方法
1)统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如文章、网页、DB数据等。
2)由于它们具有统计规律性,所以可以用概率统计方法来处理,例如:
- 用随机变量描述数据中的特征
- 用概率分布描述数据的统计规律
3)统计学习的目的是对数据进行预测与分析,特别是对未知新数据进行预测与分析。
4)统计学习方法的三要素:模型的假设空间(模型)、模型选择准则(策略)以及模型学习的算法(算法)。
5)学习方法步骤:
- 获取训练数据集
- 确定包含所有可能的模型的假设空间(即学习模型的集合)
- 确定模型选择的准则(即学习策略)
- 实现求解最优模型的算法(即学习的算法)
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
3.监督学习
1)监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
2)输入、输出的不同类型划分预测任务:
- 输入变量与输出变量均为连续变量的预测问题为回归问题
- 输出变量为有限个离散变量的预测问题为分类问题
- 输入变量与输出变量均为变量序列的预测问题为标注问题
标注问题是分类问题的推广,分类问题只输出一个值,而标注问题输出的是一个向量,向量的每个值都属于一种标记类型。
3)简单学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
4.统计学三要素
1)模型
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
- 决策函数表示模型的非概率模型,决策函数的集合:
- 由条件概率表示的模型为概率模型,条件概率的集合:
2)策略
(1)统计学习的目标在于从假设空间中选取最优模型,需要考虑按照什么样的准则学习或选择最优的模型。
(2)损失函数(loss function)或代价函数(cost function)用来度量预测错误的程度,损失函数越小越好。常见的损失函数:
- 0-1损失函数(0-1 loss function)
- 平方损失函数(quadratic loss function)
- 绝对损失函数(absolute loss function)
- 对数损失函数(logarithmic loss funcion)
(3)损失函数的期望就是欺负损失或风险函数,学习的目标就是选择期望风险最小的模型。
- 模型关于训练数据集的平均损失称为经验风险或经验损失
- 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练集的平均损失。
(4)根据大数定律,当样本容量趋于无穷大时,经验风险趋于期望风险。极大似然估计就是经验风险最小化的例子。当模型是条件概率分布,损失函数时对数损失函数时,经验风险最小化等价于极大似然估计。
(5)当样本容量很小时,经验风险最小化学习效果未必很好,会产生过拟合。结构风险最小化是为了防止过拟合而提出的策略,等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或惩罚项。
3)算法
算法是指学习模型的具体计算方法。统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
5.模型评估与模型选择
1)基于损失函数的模型的训练误差和测试误差是学习方法的评估标准。学习的损失函数未必是评估时使用的损失函数。
2)训练误差的大小反映了模型对训练数据学习的好坏,测试误差反映了学习方法对未知的测试数据集的预测能力。通常将对未知数据的预测能力成为泛华能力。
3)如果一味追求提高对训练数据的预测能力,所选模型会过拟合,对训练数据预测得很好,但对未知数据预测得很差。模型选择旨在避免过拟合并提高模型的预测能力。
6.正则化
1)正则化是结构风险最小策略的实现,是在经验风险上加了一个正则化项或罚项。
- 第1项为经验风险,第2项为正则化项,λ≥0为调整两者之间关系的系数。
- λ能控制对方差和偏差的影响。当λ上升时,它减少了系数的值,从而降低了方差。直到上升到某值之前,λ的增大很有利,因为它只是减少方差(避免过拟合),而不会丢失数据的任何重要特征。当λ在某值之后,模型会失去重要的特征,导致偏差上升产生欠拟合。
2)L1范数
L1是绝对值最小,趋向于产生少量的特征,而其它特征为0。
3)L2范数
L2是平方最小,会选择更多的特征,这些特征都会接近0。
4)从贝叶斯角度看,正则化对应于模型的先验概率,可以假设复杂模型有较小的先验概率,简单模型有较大的先验概率。
5)交叉验证
(1)样本数量充足时,可以随机将数据集划分成三部分,分别为:训练集、验证集合测试集。当数据不足时,为了选择好的模型,可以采用交叉验证方法。
(2)简单交叉验证
随机把数据划分成两部分,使用训练数据训练,使用测试数据测试误差,选出测试误差最小的模型。
(3)K折交叉验证
随机地把数据切分为K份数据量相同的数据,利用K-1数据进行训练,利用剩余的子集作测试,共进行K次训练和测试。选出K次评测中平均测试误差最小的模型。
(4)留一交叉验证
K折交叉验证的特殊情况,K=N,N为总样本量。
7.泛化能力
1)泛化能力是指模型对未知数据的预测能力。模型对未知数据的预测误差就是泛华误差,泛华误差就是模型的期望风险。
2)比较两种学习方法的泛化误差上界的大小来比较它们的优劣。
8.生产模型与判别模型
1)判别式模型
- 对条件概率P(Y|X)建模。
- 对所有样本只构建一个模型,确定总体判别边界。
- 观测到输入什么特征,就预测最优可能的类标。
- 优点:对数据量要求没生成式模型严格,速度也快,小数据量小准确率也会好些。
- 例子:LR、决策树、最大熵、条件随机场等
2)生成式模式
- 对联合概率P(X, Y)建模
- 分类问题中,每种类标都需要进行建模,最终选择最优概率的类标,没有判别边界
- 中间生成联合分布,并可生成采样数据
- 优缺点
- 所包含的信息非常齐全,所以不仅可以用于预测label,还可以干其它事情。
- 需要非常充足的数据量以保证采样到数据本来的面目。
- 当存在隐变量时仍可以使用。
- 速度比较慢。
- 例子:朴素贝叶斯、贝叶斯网络、pLSA、LDA和隐马尔科夫模型
9.分类问题
1)评价分类器性能的指标一般是分类准确率
2)对于不平衡二分类(如正负比例小于等于1:4)需要采用精确率(precision)和召回率(recall)
(1)名词说明
- TP:将正类预测为正类数
- FN:将正类预测为负类数
- FP:将负类预测为正类数
- TN:将负类预测为负类数
(2)精确率(查准率),误预测为正类的数量预测少,精确率越高
(3)召回率(查全率),漏预测的正类的数量预少,召回率越高
(4)F度量(F-measure),常用β=1,即F1度量。精确率和召回率都高时,F1值也会高。
10.标注问题
1)标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测问题的简单形式。标注问题输入的是一个观测序列,输出是一个标记序列或状态序列。
2)学习系统基于训练数据集构建一个模型,表示为条件概率分布:。标注系统按照学习到的条件概率分布模型,对新输入观测序列找到相应的输出标记序列。
3)评价标注模型的指标与评价分类模型的一样。
4)标注常用的统计学习方法有:隐马尔科夫模型、条件随机场
5)标注问题再信息抽取、自然语言处理等领域被广泛应用。
例子:自然语言处理的次性标注:给定一个由单词组成的句子,对这个句子中的每一个单词进行标注,即对单词序列预测其对应的词性标记序列。
11.回归问题
1)回归问题等价于函数拟合,选择一条曲线使其很好地拟合已知数据并很好预测未知数据。
2)回归学习最常用的损失函数时平方损失函数,在此情况下,回归问题可以由最小二乘法求解。