统计学习方法概论章节思考和笔记

       前一个月才学习了李航的这本统计学习方法,然后,前二天再回去看的时候,已经忘的差不多了,又得重新来学习一遍嘎。之前得笔记是在纸上写得,那这一次的思考和记录就用电子版的把,加入自己的理解的精简版笔记。

       数据之中蕴含很多的意义,我们通过利用概率统计的方式来将规律挖掘和表示出来,然后对数据进行预测的过程。我们现在接触的机器学习主要指的是统计机器学习。统计机器学习的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。统计学习的目的是为了对数据进行预测和分析,特别是对未知新数据的预测和分析。统计学习方法由监督学习,非监督学习,半监督学习和强化学习等组成。统计学习方法三要素:模型(假设空间),策略(评价准则),算法(求解过程)。

        监督学习中的基本的概念:输入空间,特征空间(模型定义在特征空间),输出空间。监督学习是指在学习过程中存在训练数据,也就是存在额外的知识。监督学习的问题分为了分类问题(Y离散),回归问题(Y连续,X连续),标注问题(X,Y均为变量序列)。监督学习中假定X,Y之间存在联合概率分布,并且训练数据和测试数据依联合概率分布F(X,Y)独立同分布。监督学习的模型有二个类别,决策函数和条件概率分布。

         在监督学习大类下,统计学习三要素。

 【模型】,要学习的决策函数或条件概率分布,假设空间是涵盖了所有模型的一个集合,此时所有模型代表参数空间下的不同情况,与参数的个数以及取值有很大的联系。

【策略】,是选择挑选的准则,也就是选择什么样的模型来作为最优模型的准则。衡量得标准:损失函数,度量模型一次预测的好坏;风险函数(期望损失),度量平均意义下模型预测的好坏。而计算Rexp(expected loss)很大的问题在于联合概率分布未知,所以我们退而求其次来计算经验风险(经验损失)Remp(empirical loss),是对于训练数据的平均损失。当样本容量趋于无穷时,二者逼近,但基本上,训练数据总是小得,所以我们需要对经验风险进行一定的矫正来作为我们选择的策略。也就是经验风险最小化和结构风险最小化二个部分。经验风险最小化(empirical risk minimization,ERM),就是使得经验风险最小的模型即为最佳模型。训练数据比较大的时候,对模型的评估来说时比较好的,但当样本容量很小的时候,经验风险最小化学习的效果未必很好,可能会产生过拟合的情况。主要的一个经验风险最小化的例子是极大似然估计,此时学习的模型是条件概率分布,损失函数为对数损失函数。结构风险最小化(structural risk minimization, SRM),与ERM相比而言,解决了过拟合的问题,也就是再经验损失的基础上加上了正则项(regularizer)或罚项(penalty term),进行了正则化(regularization)。主要的一个结构风险最小化的例子是最大后验概率估计,模型为条件概率分布,损失函数为对数损失函数,罚项为模型的先验概率表示的模型的复杂度。

【算法】,求解最优化的方法,优化目标是使经验风险或结构风险最小化。利用了求解最优化问题的方法来解决。

        在统计学习方法中,我们需要利用策略来实现假设空间中的模型的选取,此时已经有了一种损失函数的度量方法,而对于已经得到的模型,我们继续利用损失函数来度量模型的好坏,对于此时评估的时候,我们有训练数据和测试数据的训练误差。我们一般采用测试数据的训练误差来度量模型对于未知数据的预测能力,也就是泛化能力(generalization ability)。我们对于模型的评估既要关注效果也要关注泛化能力,所以这其中很重要的一点就是参数模型的个数的选择,也就是模型复杂度的判断,模型复杂度不能太高也不能太低。如何选择模型的参数,提高泛化能力有二种方法,第一种方法是结构风险最小化中的正则化,也就是加一个罚项,另一种方法是交叉验证的方法来确定,使用验证集来进行模型参数的选择。

思考:我们给了一个问题之后,确定了学习什么样的模型,那么有可能的形式就组成了假设空间,我们需要确定的是参数的个数,也就是我们需要的模型形式,通过验证集上的交叉验证,得到需要的模型参数,然后利用经验风险最小化以及算法来实现参数的求解。通过对于训练数据和测试数据的训练误差来进行判断。

       对于结构风险最小化,我们不需要提前确定模型的大小,因为在结构风险最小化中已经存在了对于模型复杂度的度量情况,我们需要做的是求解最优化。

      

      对于泛化能力的度量,主要是通过对于测试数据的误差来判定。但测试数据有限,也许得到的评价结果是不可靠的,统计学习试图从理论上来对泛化能力来进行分析。泛化误差就是所学习到的模型的期望风险,也就是与联合概率分布挂钩。我们一般通过泛化误差上界来比较他们的优劣。当样本容量趋进于无穷的时候,泛化上界趋于0,当假设空间容量越大,则模型越难学吗,也就是泛化误差的上界越大。

  R(f) <= R^(f)+ e(d, N, sigma),此时N位于分母之上,也就是说训练数据的规模越大,泛化误差上界越小;d表示表示了假设空间中模型的个数,个数越多,泛化误差上界越大;sigma表示的是等式不成立的概率,1-sigma代表的是等式成立的概率。

  

        监督模型中,我们有二种类别的方式,一种为生成模型(generative model),一种是判别模型(discriminative model)。生成模型是先得到联合概率分布,然后再得到条件概率分布,典型的代表有朴素贝叶斯法和隐马尔可夫模型。判别模型是直接学习条件概率分布或判别函数,典型的代表有感知机、k近邻、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法、条件随机场等。生成模型中,因为是利用F(X,Y)来求条件概率,可以还原出F(X,Y),并且学习收敛的速度更快,当样本数不断增加的时候,更接近于真实模型,当存在隐变量时,仍然可以用生成方法来学习;判别模型中,直接学习到的是决策函数或者条件概率分布,所以面向预测的时候,准确率越高,并且因为是定义在特征上的,所以简化了学习问题。


        分类问题评估的指标:混淆矩阵,TP(truth possitive),TN(truth negative),FP(False possitive),FN(False negative),准确率是指分类为正类中本身为正类的比例;召回率是指本身为正类被正确划分为正类的比例,F1值是准确率和召回率的一个调和平均的情况。准确率表明的是分类对于类别的界限判定的情况,而召回率主要是指依据数据被划分正确的情况。

        标注问题其实也算是一种分类问题,只是更复杂的结构预测的问题的简单形式。指标也是利用准确率,召回率,F1来进行判断。

        回归问题,是用于构建一个连续的关系,类似于构建一个从输入变量到输出变量之间的映射函数。说的更简单一些,也就是进行函数拟合。回归问题根据输入变量的个数,分为了一元回归和多元回归二类,根据输入变量和输出变量之间的关系分为线性回归和非线性回归二类。回归问题常用的损失函数为平方损失函数,求解的比较著名的方法是最小二乘法来进行求解。





猜你喜欢

转载自blog.csdn.net/angela2016/article/details/80646998