Python数据标准化、归一化 - 代码天地

Python数据标准化、归一化

其他 2020-03-31 20:34:14 阅读次数: 0

在进行数据分析或者机器学习时，通常需要对数据进行预处理，其中主要的步骤就是数据标准化/归一化。

常用的数据标准化和归一化方法主要有：

1. 最大最小标准化

　　y=(x-min(x))/(max(x)-min(x))，x为一序列，即x={x1,x2,x3......}，max(x)为最大值，min(x)为最小值

2. z-score标准化

　　y=(x-mean(x))/std(x)，mean(x)指的是均值，std(x)指的是标准差，结果会形成均值为0，方差为1的序列

3. 直接归一化

　　y=x/sum(x)，sum(x)指的是x序列的和

其中，Python实现 z-score的方法如下：

import numpy as np
aa = np.array([2,3,9,6,8])
bb = np.array([5,6,3,7,9])
cc = np.array([aa, bb])
print(cc)

cc_mean = np.mean(cc, axis=0)  #axis=0,表示按列求均值 ——— 即第一维，每一列可看做一个维度或者特征
cc_std = np.std(cc, axis=0)
cc_zscore = (cc-cc_mean)/cc_std   #直接计算，对数组进行标准化，一定要注意维度

同时，scikit-learn也集成了z-score标准化的方法：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
#scaler.fit(cc)                               
#trans_data_2 = scaler.transform(cc)          
cc_zscore_sk = scaler.fit_transform(cc)  #与上面numpy的计算结果一致

Python实现最大最小标准化的代码也很简单：

cc_min_max = (cc-np.min(cc, axis=0))/(np.max(cc, axis=0)-np.min(cc, axis=0))

或者使用sklearn包：

from sklearn.preprocessing import MinMaxScaler
cc_min_max = MinMaxScaler().fit_transform(cc)

##

注：pandas同样可以类似实现。

参考：

https://www.jianshu.com/p/fa73a07cd750

https://blog.csdn.net/qq_38958113/article/details/98050932

猜你喜欢

转载自www.cnblogs.com/qi-yuan-008/p/12608006.html

数据标准化/归一化

数据归一化（标准化）

数据归一化/标准化

数据归一化（标准化）

数据标准化、归一化

Python数据预处理 - 归一化与标准化

Python数据标准化、归一化

python 数据归一化/标准化方法与代码（离差标准化，log归一化，标准化，比例归一化，反正切归一化）

归一化----标准化---正则化----Python的实现

数据去量纲化（归一化与标准化）

归一化、标准化、批标准化

python归一化与标准化20200911

python实现归一化与标准化

Python数据预处理—归一化，标准化，正则化

Python 数据归一化、标准化、正则化（机器学习）

特征工程-数据归一化和标准化

数据归一化,标准化的几种方法

数据标准化（归一化）处理

数据的标准化和归一化问题

数据标准化和归一化

数据标准化和归一化的异同

数据标准化和归一化的选择

数据标准化/归一化normalization

数据特征归一化/标准化方法

数据的标准化，归一化方法总结

2018.11.14——数据标准化，又称归一化

数据预处理——归一化标准化

数据归一化和标准化

数据处理：归一化与标准化

统计数据归一化与标准化统计数据归一化与标准化

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)