统计学习方法笔记(一)统计学习方法简介

统计学习概论:

一、统计学习

  1. 运行统计学习相关方法的前提:假设同类数据具有一定的统计规律性
  2. 定义:计算机基于数据构建相应的概率统计模型,利用模型对数据进行预测与分析
  3. 方法分类:监督学习、非监督学习、半监督学习、强化学习等
  4. 统计学习三要素:模型、策略、算法
    所谓模型,指的是寻找模型的假设空间,即模型所属函数集;所谓策略,指的是模型选取的准则;所谓算法指找到最优模型的方法,本人这样理解,策略是寻找最优模型大的框架,即找到一大类比较好的子集,而算法则是更为精细的操作,在子集中找到最优的模型
  5. 统计学习步骤:
    (1). 得到一个有限的训练数据集
    (2). 确定包含所有可能模型的假设空间
    (3). 确定模型选择的准则,即策略
    (4). 实现求解最优模型的算法,即学习的算法
    (5). 通过学习方法选择最优模型
    (6). 利用学习的最优模型对新数据进行预测或分析

二、监督学习

  1. 任务:在学习好一个模型之后,给定一个输入,能够对输出做一个比较好的预测
  2. 概念:
    根据输入输出变量的不同类型,对预测任务给与不同的名称,若输入输出均连续,则称预测问题为回归问题;若只有输出离散,则称此类预测问题为分类问题;若输入输出均离散,则称此类预测问题为标注问题。
    1) 输入空间、输出空间:输入空间是输入所有可能取值的集合,输出空间是输出所有可能取值的集合,通常情况下,输出空间远远小于输入空间
    2) 特征向量:代表了输入的实例,所有的特征向量组成了特征空间,特征空间的每一维代表了一个特征;特征空间可能与输入空间相同,也可能不同,模型实际上是定义在特征空间中的
    3) 联合概率分布:假设输入变量与输出变量遵循联合概率分布,即 P ( X , Y ) ,这是监督学习关于数据的基本假设,同时,训练数据与测试数据都被看做是由联合概率密度 P ( X , Y ) 独立同分布产生的。
    4) 假设空间:输入到输出的映射(即模型)的集合,即函数的集合,这个模型可以是概率模型,也可以是非概率模型,由条件概率分布 P ( Y | X ) 或者决策函数 Y = f ( X ) 来表示

  3. 问题的形式化:监督学习分为学习跟预测两个过程,由学习系统与预测系统两个系统完成,如图所示:
    这里写图片描述
    在学习过程中,学习系统通过学习得到一个模型,通常表现为条件概率分布 P ^ ( Y | X ) 或者决策函数 Y = f ^ ( X ) 。在预测过程中,对于给定的测试样本集中的输入 x N + 1 ,由模型得到 y N + 1 = arg max y N + 1 P ^ ( y N + 1 | x N + 1 ) 或者 y N + 1 = f ^ ( x N + 1 )

统计学习三要素(对概念的进一步深化)

  1. 假设空间:用 F 来表示,假设空间可以定义为决策函数的集合 F = { f | Y = f ( X ) } ,其中, X Y 是输入空间 X 和输出空间上的变量 Y ,这时 F 是由一个参数向量决定的函数族: F = { f | Y = f θ ( x ) , θ R n } ,参数 θ 取值于n维欧式空间 R n ,被称为参数空间;也可以定义为条件概率的集合: F = { P | P θ ( Y | X ) , θ R n }
  2. 策略:寻找最优模型,需要找到衡量的标准,所以引入了损失函数和风险函数的的概念。其中,损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
    1)损失函数,是 f ( X ) Y 的非负函数,记作 L ( Y , f ( X ) ) ,通常有以下几种:
    这里写图片描述
    顾名思义,损失函数越小,代表模型越好。进一步定义风险函数,因为输入输出是随机变量,所以可以求损失函数的期望,即: R exp ( f ) = E p [ L ( Y , f ( X ) ) ] = X × Y L ( y , f ( x ) ) P ( x , y ) d x d y 这被称为风险函数或期望损失。然而,联合概率分布未知,这样一来,寻找最优模型就无从谈起,所以我们有必要找到能替代联合概率分布的东西。
    当给定训练数据集后,我们可以得到训练数据集的平均损失或经验损失:
    R e m p ( f ) = 1 N i = 1 N L ( y i , f ( x i ) )
    根据大数定理,当样本容量趋于无穷时,经验风险就趋于期望风险,所以我们可以用经验风险来替代期望风险,但由于在实际中样本通常有限,这种方案的精度较低,所以需要进行一定的矫正,这就关系到了监督学习的两个基本策略,即经验风险最小化与结构风险最小化。
    2)经验风险最小化与结构风险最小化(即怎样矫正)
    由其定义可知,在假设空间、损失函数以及训练数据集已知的情况下,经验风险函数式就可以确定。经验风险最小化(ERM)的策略认为,经验风险最小的模型就是最优的模型,按照这一策略,求最优模型就是求最优化问题:
    min f F 1 N i = 1 N L ( y i , f ( x i ) )
    当样本容量足够大时,经验风险最小化效果较好,如最大似然估计,当模型是条件概率分布,损失函数是对数似然函数时,经验风险最小化等价于极大似然估计;当样本容量较小时,经验风险最小化学习的效果就比较差,会出现过拟合的现象。为了防止过拟合,提出了结构风险最小化。所谓结构风险最小化,等价于正则化,是在经验风险的基础下加上表示模型复杂度的正则化项或罚项(利用这些项对某些参数做了一定的限制)。在假设空间、损失函数、训练数据集确定的情况下,结构风险的定义为:
    R s r m ( f ) = 1 N i = 1 N L ( y i , f ( x i ) ) + λ J ( f )
    其中, J ( f ) 表示模型的复杂度,是定义在假设空间上的泛函(泛函就是从任意的向量空间到标量的映射),其越大,表示模型越复杂; λ >= 0 是系数,用以权衡经验风险跟模型复杂度。结构风险小,就需要经验风险与模型复杂度同时小。贝叶斯估计的最大后验估计是结构风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
    结构风险最小化的策略认为,结构风险最小的模型即是最优模型,所以问题转化为求最优化问题,即:
    min f F 1 N i = 1 N L ( y i , f ( x i ) ) + λ J ( f )
  3. 算法:即求解最优模型的计算方法

猜你喜欢

转载自blog.csdn.net/yeyustudy/article/details/79148324