机器学习 --2 特征预处理之数据标准化

其他 2018-12-24 03:33:20 阅读次数: 0

归一化:

API位置

sklearn.preprocessing

归一化:
特点：通过对原始数据进行变换把数据映射到(默认为[0,1])之间
注意也可以通过指定MinMaxScalar 里边的feature_range 来指定缩放的范围
示例代码

from sklearn.preprocessing import MinMaxScaler


# 归一化
# 最小最大缩放(MinMaxScaler)
# 按照最大最小值缩放到 0-1 区间(也可以指定feature_range)
def mm():
    mm = MinMaxScaler(feature_range=(0,1))
    data = mm.fit_transform([[90, 2, 10, 40],
                      [60, 4, 15, 45],
                      [75, 3, 13, 46]])
    print(data)
    return None

if __name__=='__main__':
    mm()

标准化

API位置

from sklearn.preprocessing import StandardScaler

标准化
使用标准差,使得在样本足够多的情况下,比较稳定,适应数据比较嘈杂的环境(避免异常点过分影响)
示例代码

from sklearn.preprocessing import StandardScaler
import numpy as np
# 缺失值处理
# 版本更新:
#  DeprecationWarning: Class Imputer is deprecated; Imputer was deprecated in version 0.20 and will be removed in 0.22. Import impute.SimpleImputer from sklearn instead.
#   warnings.warn(msg, category=DeprecationWarning)
from sklearn.preprocessing import Imputer


# 标准化缩放
def stand():
    std = StandardScaler()
    data = std.fit_transform([[1., -1., 3.],
                              [2., 4., 2.],
                              [4., 6., -1.]])
    print(data)
    return None


# 缺失值处理
# 可以删除(不建议)
# 可以插补(使用平均值 或者 中位数) 一般按列填补
def im():
    # 指定缺失的是nan 轴用0轴(按列)
    im = Imputer(missing_values='NaN', strategy='mean', axis=0)
    data = im.fit_transform([[1, 2],
                             [np.nan, 3],
                             [7, 6]])
    print(data)
    return None

if __name__ == "__main__":
    stand()
    im()
    '''
    [[1. 2.]
    [4. 3.]
    [7. 6.]]
    '''

猜你喜欢

转载自blog.csdn.net/qq_41009846/article/details/85171812

机器学习 --2 特征预处理之数据标准化

机器学习 --2 特征预处理之数据将维

机器学习之数据预处理——归一化，标准化

数据预处理之标准化

【机器学习】 - 数据预处理之数据归一化(标准化)与实战分析，正则化

简单粗暴理解与实现机器学习之K-近邻算法（七）：【特征工程】-特征预处理、归一化、标准化

简单粗暴理解与实现机器学习之K-近邻算法（七）：【特征工程】-特征预处理、归一化、标准化

机器学习之特征工程-数据预处理

机器学习sklearn之数据预处理及特征选择

【机器学习之特征工程】数据预处理02

08_特征预处理之标准化

【机器学习之特征工程】数据预处理、特征选择、降维及不平衡处理

机械学习 - scikit-learn - 数据预处理归一化与标准化- 2

机器学习之数据标准化处理

机器学习sklearn—数据的特征预处理

【机器学习】数据预处理与特征工程

机器学习——数据特征预处理

机器学习数据预处理-标准化/归一化方法

【机器学习】数据预处理 - 归一化和标准化

数据预处理之数据标准特征化

机器学习基础之《特征工程（3）—特征预处理》

（未完成）人工智能学习（22 机器学习：03-数据特征预处理：11_标准化总结以及缺失值处理）

机器学习-Python实践Day3（特征工程--数据预处理2）

人工智能学习（22 机器学习：03-数据特征预处理：09_归一化以及标准化对比）

机器学习之数据预处理——特征编码(标签编码，独热编码)

机器学习中数据特征的处理归一化vs标准化，哪个更好

吴裕雄 python 机器学习——数据预处理标准化MinMaxScaler模型

吴裕雄 python 机器学习——数据预处理标准化MaxAbsScaler模型

吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型

机器学习实战基础（九）：sklearn中的数据预处理和特征工程（二）数据预处理 Preprocessing & Impute 之数据无量纲化

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)