常用的数据标准化方法

转自:https://www.cnblogs.com/followyourheart/articles/3349899.html

统计指标是数据分析的基本元素,变量之间的对比分析和综合分析是最基本、最常用的统计分析方法。当统计指标的量纲不同或性质不同时,如果直接用原始数据进行数据分析,往往会得到不合理的结论。

为什么要进行数据标准化

对单个指标进行比较,假设对3名新生婴儿体重(5,6,7)和3名成年人的体重(150,151,152)差异的大小进行对比分析,从表面上看,两组人员的平均差异均为1斤,由此便得出两组人员的体重差异程度相同显然是不合适,因为两者的体重水平不在同一等级上,即量纲不同;

对多个指标进行综合分析,假设对商品的运营指标销售量、销售额、浏览量进行综合评价或聚类分析,由于各指标间的水平相差很大,如果直接进行分析会突出数值较高的指标在综合分析中的作用,从而使各个指标以不等权参与运算。

因此,常常需要先对数据进行标准化,对各统计指标进行无量纲化处理,消除量纲影响和变量自身变异大小和数值大小的影响。

常见的数据标准化方法

1、 Max-Min标准化/离差标准化

该方法将某个变量的观察值减去该变量的最小值,然后除以该变量的离差,其标准化的数值落到[0,1]区间,转换函数为:x=(x-min)/(max-min),其中max为样本的最大值,min为样本的最小值。

该方法对原始数据进行线性变换,保持原始数据之间的联系,其缺陷是当有新数据加入时,可能导致max或min的变化,转换函数需要重新定义。

2、Z-score 标准化/标准差标准化/零均值标准化

该方法将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差,标准化后的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:x=(x-μ)/σ,其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

该方法对离群点不敏感,当原始数据的最大值、最小值未知或离群点左右了Max-Min标准化时非常有用,Z-Score标准化目前使用最为广泛的标准化方法。

3、小数定标(decimal scaling)标准化

该方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于变量取值中的最大绝对值。将某变量的原始值x使用小数定标标准化到x’的转换函数为:x’=x/(10^j),其中,j是满足使max(|x’|)<1成立的最小整数。假设变量X的值由-986到917,它的最大绝对值为986,为使用小数定标标准化,我们用1000(即,j=3)除以每个值,这样,-986被标准化为-0.986。

猜你喜欢

转载自www.cnblogs.com/caicai2019/p/11010119.html
今日推荐