机器学习之监督学习:回归

回归预测

回归问题分类问题的区别在于:其待预测的目标是 连续变量

线性回归器

如果面对训练数据十分庞大的任务,随机梯度法不论是在分类还是在回归问题上都表现得十分高效,可以在不损失过多性能的前提下,节省大量计算时间(根据Scikit-learn官网的建议,如果数据规模超过10万,推荐使用随机梯度估计参数模型<SGD Classifier/Regressor>)
eg:最小二乘

特点分析:线性回归器是最为简单、易用的回归模型。正式因为其对特征与回归目标之间的线性假设,从某种程度上说也局限了其应用范围。


支持向量机(回归)

核函数
:支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换,而由这个函数 K(x, x′) 直接得到非线性变换的内积,使大大简化了计算。这样的函数 K(x, x′) 称为核函数。
核函数是一项非常有用的特征映射技巧,通过某种函数计算,将原有的特征映射到更高维度的空间,从而尽可能达到新的高维度特征线性可分的程度。
<在数学中, 数量积(dot product; scalar product,也称为 点积、内积)>

非线性变换:每个输出值的变化量与其相应的输入值的变化量之比不是常数的转换

不同核函数配置下的支持向量机回归模型在测试集上的回归性能存在非常大的差异。

在使用了径向基核函数对特征进行非线性映射之后,支持向量机展现了最佳的回归性能。

径向基函数
径向基函数是一个取值仅仅依赖于离原点距离的实值函数,也就是Φ(x)=Φ(‖x‖),或者还可以是到任意一点c的距离,c点称为中心点,也就是Φ(x,c)=Φ(‖x-c‖)。任意一个满足Φ(x)=Φ(‖x‖)特性的函数Φ都叫做径向基函数,标准的一般使用欧氏距离(也叫做欧式径向基函数)

K近邻(回归)

衡量待测样本回归值的不同方式:
1.对K个近邻目标数值使用普通的算术平均算法
2.同时考虑距离的差异进行加权平均
实验表明:相比之下,采用加权平均的方式回归,具有更好的预测性能

回归树

决策树每个叶节点依照训练数据表现的概率倾向决定了其最终的预测类别,而回归树的叶节点却是一个具体的值

特点分析
1.树模型可以解决非线性特征的问题
2.树模型不要求对特征标准化和统一量化,即数值型和类别型特征都可以直接被应用在树模型的构建和预测过程中
3.因为上述原因,树模型可以直观地输出决策过程,使得预测结果具有可解释性
同时,树模型也有一些显著地缺陷:
1.正是因为树模型可以解决复杂的非线性拟合问题,所以更加容易因为模型搭建过于复杂而丧失对新数据预测的精度(泛化力)
2.树模型自上而下的预测流程会因为数据细微的更改而发生较大的结构变化,因此预测稳定性较差
3.依托训练数据构建最佳的树模型是NP难问题,即在有限时间内无法找到最优解的问题,因此我们所使用类似贪婪算法的解法只能找到一些次优解,这也是为什么我们经常借助集成模型,在多个次优解中寻觅更高的模型性能。

NP问题是指存在多项式算法能够解决的非决定性问题,而其中NP完全问题又是最有可能不是P问题的问题类型。所有的NP问题都可以用多项式时间划归到他们中的一个。所以显然NP完全的问题具有如下性质:它可以在多项式时间内求解,当且仅当所有的其他的NP-完全问题也可以在多项式时间内求解。
P就是能在多项式时间内解决的问题,NP就是能在多项式时间验证答案正确与否的问题。用大白话讲大概就是这样。所以P是否等于NP实质上就是在问,如果对于一个问题我能在多项式时间内验证其答案的正确性,那么我是否能在多项式时间内解决它?这个表述不太严谨,但通俗来讲就是如此。


集成模型(回归)
极端随机森林

与普通的随机森林模型不同的是,极端随机森林在每构建一棵树的分裂节点的时候,不会任意地选取特征,而是先随机收集一部分特征,然后利用信息熵和基尼不纯性等指标挑选最佳的节点特征
特点分析:
许多在业界从事商业分析系统开发和搭建的工作者更加青睐集成模型,并且经常以这些模型的性能表现为基准,与新设计的其他模型性能进行对比。虽然这些集成模型在训练过程中要耗费更多的时间,但是往往可以提供更高的表现性能和更好的稳定性。


补充一些这一领域常见词汇:

Classification 分类
Regression 回归
Clustering 聚类
Dimensionality Reduction 降维

猜你喜欢

转载自blog.csdn.net/torres_10/article/details/79834885
今日推荐