机器学习：数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder

企业开发 2021-10-12 15:17:07 阅读次数: 0

LabelEncoder 和 OneHotEncoder 是什么

- 在数据处理过程中，我们有时需要对不连续的数字或者文本进行数字化处理。
- 在使用 Python 进行数据处理时，用 encoder 来转化 dummy variable（虚拟数据）非常简便，encoder 可以将数据集中的文本转化成0或1的数值。
- LabelEncoder 和 OneHotEncoder 是 scikit-learn 包中的两个功能，可以实现上述的转化过程。
- sklearn.preprocessing.LabelEncoder
- sklearn.preprocessing.OneHotEncoder 
复制代码

数据集中的类别数据

在使用回归模型和机器学习模型时，所有的考察数据都是数值更容易得到好的结果。
因为回归和机器学习都是基于数学函数方法的，所以当我们要分析的数据集中出现了类别数据(categorical data)，此时的数据是不理想的，因为我们不能用数学的方法处理它们。
例如，在处理男和女两个性别数据时，我们用0和1将其代替，再进行分析。
由于这种情况的出现，我们需要可以将文字数字化的现成方法。
复制代码

LabelEncoder 和 OneHotEncoder 的区别

具体代码

import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.cross_validation import train_test_split

# 读取数据
data_df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                 'breast-cancer-wisconsin/wdbc.data', header=None)

# 前面的数据是特征，最后一列是标签label
x, y = data_df.values[:, :-1], data_df.values[:, -1]

# 先实例化一个对象
encoder_x = LabelEncoder() 

# 对标签进行类别数据数字化
y = encoder_x.fit_transform( y )

复制代码

猜你喜欢

转载自juejin.im/post/7018066861132611591

机器学习：数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder

数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder

python数据预处理之LabelEncoder()、OneHotEncoder()

LabelEncoder & OneHotEncoder

基于sklearn的序列处理 : LabelEncoder 与 OneHotEncoder

数据预处理之将类别数据数字化的方法 —— LabelEncoder

Sklearn中LabelEncoder与OneHotEncoder

LabelEncoder和OneHotEncoder

onehotencoder和labelencoder小结

OneHotEncoder和LabelEncoder的区别

python 数据处理中的 LabelEncoder 和 OneHotEncoder

sklearn 处理文本和分类属性[LabelBinarizer, LabelEncoder,OneHotEncoder]

使用sklearn进行数据预处理之Binarizer,LabelEncoder,LabelBinarizer,OneHotEncoder

离散数据编码方式的总结(OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies、DictVectorizer的区别？)

特征为分类变量时，进行编码处理——pd.get_dummies()、oneHotEncoder()、LabelEncoder()

sklearn中的几种二值化编码函数：OneHotEncoder, LabelEncoder , LabelBinarizer

OneHotEncoder独热编码和 LabelEncoder标签编码

OneHotEncoder独热编码和LabelEncoder标签编码

【373】LabelEncoder 相关 OneHotEncoder独热编码和 LabelEncoder标签编码

愉快的学习就从翻译开始吧_Multivariate Time Series Forecasting with LSTMs in Keras_3_Multivariate LSTM Forecast LabelEncoder和OneHotEncoder 在特征工程中的应用

OneHotEncoder

sklearn preprocessing 数据预处理 OneHotEncoder

sklearn preprocessing 数据预处理（OneHotEncoder）

吴裕雄 python 机器学习——数据预处理二元化OneHotEncoder模型

用sklearn.preprocessing做数据预处理（四）——OneHotEncoder

特征处理： OneHotEncoder 与 pandas.get_dummies

使用sklearn之LabelEncoder将Label标准化

LabelEncoder使用方法及处理多列文本的方法

独热编码（One-Hot Encoding）和 LabelEncoder标签编码区别数据预处理：（机器学习） sklearn

推荐系统-特征工程-离散型特征的处理：OneHotEncoder

今日推荐

周排行

ASP.NET MVC零基础自学篇：（二） ASP.NET MVC Web 应用程序

Linux中的NetworkManager网络管理

倍增ST应用选择客栈（提高组）

《沉思录卷六》不朽之誉不过一时虚幻

Linux根目录介绍

SVM真实数据集和多分类

Install SVN tool on redhat

nginx实现proxy_cache

HDU 5583 Kingdom of Black and White

深入扒 HashMap 源码 - 6.2 HashMap 内部类 TreeNode

每日归档

更多

2025-01-30(0)

2025-01-29(0)

2025-01-28(0)

2025-01-27(0)

2025-01-26(0)

2025-01-25(0)

2025-01-24(0)

2025-01-23(0)

2025-01-22(0)

2025-01-21(0)