数据预处理——标准化、归一化、正则化

三者都是对数据进行预处理的方式,目的都是为了让数据便于计算或者获得更加泛化的结果,但是不改变问题的本质。

标准化(Standardization)

归一化(normalization)

正则化(regularization)

归一化

我们在对数据进行分析的时候,往往会遇到单个数据的各个维度量纲不同的情况,比如对房子进行价格预测的线性回归问题中,我们假设房子面积(平方米)、年代(年)和几居室(个)三个因素影响房价,其中一个房子的信息如下:

  • 面积(S):150 平方米
  • 年代(Y):5 年

这样各个因素就会因为量纲的问题对模型有着大小不同的影响,但是这种大小不同的影响并非反应问题的本质。

为了解决这个问题,我们讲所有的数据都用归一化处理至同一区间内。

正则化

这篇文章对于正则化的讲解通俗易懂:https://www.zhihu.com/question/20924039

正则化主要用于防止过拟合

我们在训练模型时,要最小化损失函数,这样很有可能出现过拟合的问题(参数过多,模型过于复杂),所以我么在损失函数后面加上正则化约束项,转而求约束函数和正则化项之和的最小值

上式中,蓝色部分即为损失函数,红色部分是正则化项(参数的2-范数)

标准化

标准化也是将样本的特征转化只同一量纲下的一种方法,标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布

但是在机器学习的数据预处理中,归一化和正则化更为常用。

猜你喜欢

转载自www.cnblogs.com/simpleDi/p/9918306.html