特征工程之离散变量处理 - 代码天地

特征工程之离散变量处理

其他 2018-08-29 00:28:28 阅读次数: 0

使用sklearn训练模型，只能输入数值型变量。因此需要对数据集中的非数值型离散变量进行处理，非数值型离散变量分为两类：有序型与无序型

一、有序型离散变量处理

什么叫有序型离散变量呢，比如说衣服尺码，M、L、XL；学历：小学、初中、高中、本科；这些都属于有序型变量。

在上图数据表格中，size及classlabel则为有序型变量，自定义有序型字典表，进行相关映射即可：

二、无序型离散变量处理

衣服的颜色，风向、人员类别这些都属于无序型变量，如果转换成有序型数值代入模型会对建模结果造成影响，因此对于无序型变量需要做独热编码或者哑变量处理

（1）独热编码

独热编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。独热编码是分类变量作为二进制向量的表示，这首先要求将分类值映射到整数值，然后再将每个整数值表示为二进制向量。

具体操作如下：首先将无序型变量color利用LabelEncoder()方法映射为数值

再将整数型数值进行独热编码

（2）哑变量处理

　　在模型中引入多个虚拟变量时，虚拟变量的个数应按下列原则确定：如果有m种互斥的属性类型，在模型中引入（m-1）个虚拟变量。例如，性别有2个互斥的属性，引用2-1=1个虚拟变量；再如，文化程度分小学、初中、高中、大学、研究生5类，引用4个虚拟变量。
　　pandas中的get_dummies方法来创建哑特征，get_dummies默认会对DataFrame中所有字符串类型的列进行独热编码：

在实际特征工程处理过程中，使用LabelEncoder()+OneHotEncoder()方式，sklearn能够将训练集属性记录，并可以采用transform()方法直接作用于待加入模型的测试集。

猜你喜欢

转载自www.cnblogs.com/dearL/p/9551726.html

特征工程之离散变量处理

DataScience：机器学习中特征工程之WOE编码—离散变量编码(有监督)

特征工程之特征预处理

特征工程之特征的处理及选择

特征工程——连续特征与离散特征处理方法

【sklearn实例】4--特征工程之离散值编码

白话总结《特征工程之连续变离散》

推荐系统-特征工程-离散型特征的处理：OneHotEncoder

特征工程之数据预处理

特征工程之数据预处理（下）

特征工程之离群值处理

特征工程之缺失值处理

DataScience：机器学习中特征工程之连续型变量离散化—变量分箱的简介、常用方法、案例应用(评分卡模型为例)之详细攻略

机器学习特征工程之特征预处理

1. 特征工程之特征预处理

特征工程之特征表达特征工程之特征选择

特征工程之特征选择特征工程之特征选择

特征工程之特征选择

特征工程之特征表达

特征工程之特征抽取

特征工程之_筛选

特征工程之处理时间序列数据

机器学习特征工程之-数据预处理-1

特征工程-特征处理

特征工程之特征缩放&特征编码

机器学习：《特征工程三部曲》之一数据处理（连续特征和离散特征）

离散型特征的处理方法

归一化MinMaxScaler()、标准化StandardScaler()（特征工程之特征预处理）

特征工程之Histogram编码

特征工程之降维

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)