Python scikit-learn,数据的预处理,归一化,MinMaxScaler

数据的预处理通过特定的统计方法(数学方法)数据转换成算法要求的数据

数值型数据:标准缩放:归一化、标准化、缺失值处理

类别型数据(字典类型):one-hot编码

时间类型:时间的切分(重采样)

为什么要归一化? 归一化之后可以平衡各个特征的重要性。(例如在计算不同样本之间的距离时,归一化后可以避免某一个特征的重要性过大或过小) 

归一化的缺点:归一化受异常点(最大值,最小值)的影响较大。 归一化适用于精确小数据。


demo.py(scikit-learn,数据的预处理,归一化,MinMaxScaler):

from sklearn.preprocessing import MinMaxScaler


# 归一化处理
mm = MinMaxScaler(feature_range=(2, 3))  # feature_range表示归一化后的区间范围 默认[0,1]之间
data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])  # 二维数组

print(data)
'''
[[3.         2.         2.         2.        ]
 [2.         3.         3.         2.83333333]
 [2.5        2.5        2.6        3.        ]]

'''

猜你喜欢

转载自blog.csdn.net/houyanhua1/article/details/87903824