机器学习模型中归一化和标准化的应用场景

归一化:把每个特征向量(特别是奇异样本数据)的值都缩放到相同数值范围。如[0,1]或[-1,1]。最常用的归一化形式就是将特征向量调整为L1范数(就是绝对值相加),使特征向量的数值之和为1。L2范数就是欧几里得之和。 

这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异,即确保数据处于同一数量级(同一量纲),提高不同特征数据的可比性。

概率模型(树形模型)不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、RF。而像Adaboost、SVM、LR、Knn、KMeans之类的最优化问题就需要归一化。

Tree-based models doesn’t depend on scaling

Non-tree-based models hugely depend on scaling

 

什么时候对数据中心化?

在聚类过程中,标准化显得尤为重要。这是因为聚类操作依赖于对类间距离和类内聚类之间的衡量。如果一个变量的衡量标准高于其他变量,那么我们使用的任何衡量标准都将受到该变量的过度影响。

在PCA降维操作之前。在主成分PCA分析之前,对变量进行标准化至关重要。 这是因为PCA给那些方差较高的变量比那些方差非常小的变量赋予更多的权重。而 标准化原始数据会产生相同的方差,因此高权重不会分配给具有较高方差的变量

KNN操作,原因类似于kmeans聚类。由于KNN需要用欧式距离去度量。标准化会让变量之间起着相同的作用。

在SVM中,使用所有跟距离计算相关的的kernel都需要对数据进行标准化。

在选择岭回归和Lasso时候,标准化是必须的。原因是正则化是有偏估计,会对权重进行惩罚。在量纲不同的情况,正则化会带来更大的偏差。

什么时候不需要标准化?

当采用普通的线性回归的时候,是无需标准化的。因为标准化前后,不会影响线性回归预测值。
同时,标准化不会影响logistic回归,决策树及其他一些集成学习算法:such as random forest and gradient boosting.

决策树不需要归一化的很大原因应该是:

不需要考虑特征的值,只需要考虑划分界限,比如ID3 C4.5 CART 的熵和基尼系数,研究对象只是概率分布,对数值不关心。

决策树的一些优点:

  • 决策树模型可以读性好,具有描述性,有助于人工分析。简单易懂,可解释性强,且构造的树能够可视化。
  • 几乎不需要数据预处理。其他一些技术常常需要做数据标准化、哑变量的创建等等数据准备工作。算法完全不受数据缩放的影响。由于每个特征被单独处理,而且数据的划分也不依赖于缩放,因此决策树算法不需要特征预处理,比如归一化或标准化。特别是特征的尺度完全不一样时或者二元特征和连续特征同时存在时,决策树的效果同样很好。
  • 使用树的成本低例如预测数据)是训练数据点(data points)数量的对数。效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度
  • 可以同时处理数值变量和分类变量。其他的一些技术往往只能处理特定数据类型的变量。
  • 可以处理多输出变量问题。
  • 使用白盒模型。如果一个情况被观察到,使用逻辑判断容易表示这种规则。相反,如果是黑盒模型(例如人工神经网络),结果会非常难解释。
  • 可使用统计检验来验证模型,从而可保证模型的可靠性,提高模型的可行度。
  • 即使对真实模型来说,假设无效的情况下,也可以较好的适用。

决策树的一些缺点:

  • 容易出现过拟合,特别是在构造了过于复杂的树的情况下。决策树学习可能创建一个过于复杂的树,并不能很好的预测数据。也就是过拟合。修剪机制(现在不支持),设置一个叶子节点需要的最小样本数量,或者数的最大深度,可以避免过拟合。
  • 决策树可能是不稳定的,因为即使非常小的变异,可能会产生一颗完全不同的树。这个问题通过decision trees with an ensemble来缓解。
  • 学习一颗最优的决策树是一个NP-完全问题under several aspects of optimality and even for simple concepts。因此,传统决策树算法基于启发式算法,例如贪婪算法,即每个节点创建最优决策。这些算法不能产生一个全局最优的决策树,得到的往往是一个局部最优结果。。对样本和特征随机抽样可以降低整体效果偏差。
  • 概念难以学习,因为决策树没有很好的解释他们,例如,XOR, parity or multiplexer problems。对于异或、多路复用等问题,决策树表现一般,因为决策树很难去表达它们。
  • 如果某些分类占优势,决策树将会创建一棵有偏差的树。因此,建议在训练之前,先抽样使样本均衡。

决策树对变量的量纲差异、离群值的存在以及有偏分布不太敏感,也就是对数据准备要求不高。

有研究表明回归模型样本量选择中,最好各组样本含量大于解释变量数的20倍。

猜你喜欢

转载自blog.csdn.net/answer3lin/article/details/84961694