数据的标准化和归一化问题

其他 2018-07-01 03:34:43 阅读次数: 0

数据归一化

引入归一化，是由于在不同评价指标（特征指标）中，其量纲或是量纲单位往往不同，变化区间处于不同的数量级，若不进行归一化，可能导致某些指标被忽视，影响到数据分析的结果。为了消除特征数据之间的量纲影响，需要进行归一化处理，以解决特征指标之间的可比性。原始数据经过归一化处理后，各指标处于同一数量级，以便进行综合对比评价。

数据归一化会使得最优解的寻优过程会变得平缓，更容易正确的收敛到最优解。

数据缩放的本质：

在这个回答下，我们对一维数据的缩放有如下定义：

可以再稍微变形一下： $\frac{X_i-\beta}{\alpha}=\frac{X_i}{\alpha}-\frac{\beta}{\alpha}=\frac{X_i}{\alpha}-c$ （公式1）

事实上就是对向量 $X$ 按照比例压缩 $\alpha$ 再进行平移 $c$ 。所以归一化和标准化的本质就是一种线性变换。

归一化和标准化的区别

归一化：缩放仅仅跟最大、最小值的差别有关。输出范围在0-1之间

标准化：缩放和每个点都有关系，通过方差（variance）体现出来。与归一化对比，标准化中所有数据点都有贡献（通过均值和标准差造成影响）。输出范围是负无穷到正无穷

什么时候用归一化？什么时候用标准化？

1.如果对输出结果范围有要求，用归一化

2.如果数据较为稳定（图像或是视频的数据值处于固定区间），不存在极端的最大最小值，用归一化

3.如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响

方法：

其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上，常见的数据归一化的方法有：

min-max标准化(Min-max normalization)

　　也叫离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下：

　　其中max为样本数据的最大值，min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

log函数转换

　　通过以10为底的log函数转换的方法同样可以实现归一下，具体方法如下：

　　看了下网上很多介绍都是x*=log10(x)，其实是有问题的，这个结果并非一定落到[0,1]区间上，应该还要除以log10(max)，max为样本数据最大值，并且所有的数据都要大于等于1。

atan函数转换

　　用反正切函数也可以实现数据的归一化：

　　使用这个方法需要注意的是如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间上。

　　而并非所有数据标准化的结果都映射到[0,1]区间上，其中最常见的标准化方法就是Z标准化，也是SPSS中最为常用的标准化方法：

z-score 标准化(zero-mean normalization)

　　也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

　　其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

猜你喜欢

转载自blog.csdn.net/m0_37407756/article/details/80702886

数据的标准化和归一化问题

数据标准化/归一化

数据归一化（标准化）

数据归一化（标准化）

数据归一化/标准化

数据标准化、归一化

标准化和归一化

归一化和标准化

特征工程-数据归一化和标准化

数据标准化和归一化

数据标准化和归一化的异同

数据标准化和归一化的选择

数据归一化和标准化

数据归一化（或者标准化，注意归一化和标准化不同）的原因:

数据去量纲化（归一化与标准化）

归一化、标准化和正则化的关系

正则化，归一化和标准化

标准化、归一化和正则化的关系

数据分析：归一化、标准化和中心化/零均值化

回归和拟合、归一化和标准化

归一化、标准化、批标准化

数据归一化,标准化的几种方法

数据标准化（归一化）处理

Python数据预处理 - 归一化与标准化

数据标准化/归一化normalization

数据的标准化，归一化方法总结

数据特征归一化/标准化方法

2018.11.14——数据标准化，又称归一化

数据预处理——归一化标准化

Python数据标准化、归一化

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)