python数据预处理：字符变量独热编码(one-hot encoding) - 代码天地

python数据预处理：字符变量独热编码(one-hot encoding)

其他 2018-11-26 04:01:21 阅读次数: 0

版权声明：本文为博主原创文章，如若转载请注明出处 https://blog.csdn.net/tonydz0523/article/details/84261781

许多的数据采样中会有很多以以字符串形式出现的数据，这样的数据没有办法直接跟其他数值变量合并成向量，这些值一般是分类数据或是顺序数据。

分类数据：分类数据指某些数据类别的只能归于某一类非数值型数据，例如男、女。分类数据中的值没有明显高低好坏之分，只是由来区分两个或多个具有相同或相当价值的属性。
顺序数据：顺序数据只能归于某一有序类别的非数值型数据，例如用户的价制度分为高、中、低。在顺序数据中，有明显的逻辑排序。

import pandas as pd
import numpy as np

# 导入数据
df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/Questionnaire.csv', usecols=[0, 1, 5])

# 更改列名
df.columns = ['Gender', 'Country', 'Edu']
df0 = df[:10]

# 看下数据
	Gender	Country	Edu
0	Female	United States	Master's degree
1	Male	Canada	Master's degree
2	Male	United States	Master's degree
3	Male	Taiwan	Doctoral degree
4	Male	Brazil	Doctoral degree
5	Male	United States	Master's degree
6	Female	India	Bachelor's degree
7	Female	Australia	Bachelor's degree
8	Male	Russia	Bachelor's degree
9	Female	Russia	Bachelor's degree

# pandas 方法
# 使用get_dummies函数
pd.get_dummies(df0)


# 使用 sklearn
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

columes = df0.columns
for col in columes:
    data = df0[col]
    if data.dtype == 'object':
        new_columns = []
        label = LabelEncoder()
        oneHot = OneHotEncoder()
        la_data = label.fit_transform(data).reshape(-1, 1)
        for cla in label.classes_:
            new_columns.append(col+'_'+cla)
        one_data = oneHot.fit_transform(la_data).toarray()
        enc_df = pd.DataFrame(one_data , columns=new_columns)
        del df0[col]
        df0 = pd.concat([df0, enc_df], axis=1)

pandas的get_dummies和 sklearn的 OneHotEncoder区别：

OneHotEncoder不能直接处理字符串值。如果你的名义特征是字符串，那么你需要先把它们映射成整数。
pandas.get_dummies是相反的。默认情况下，除非指定了列，否则它仅将字符串列转换为单热表示形式。

猜你喜欢

转载自blog.csdn.net/tonydz0523/article/details/84261781

python数据预处理：字符变量独热编码(one-hot encoding)

数据预处理：独热编码（One-Hot Encoding）

数据预处理--独热编码（One-Hot Encoding）和 LabelEncoder标签编码

机器学习数据预处理之独热编码（One-Hot Encoding）

机器学习数据预处理之独热编码（One-Hot Encoding）[zz]

数据预处理之独热编码（One-Hot Encoding）

独热编码（One-Hot Encoding）和 LabelEncoder标签编码区别数据预处理：（机器学习） sklearn

深度学习工作笔记003---数据预处理：独热编码（One-Hot Encoding）

独热编码 one-hot Encoding

One-Hot Encoding独热编码

One-Hot Encoding 独热编码

独热编码（One-Hot Encoding）

数据预处理：One-Hot Encoding

独热编码(one-hot encoding)与哑编码

独热编码（One-Hot Encoding）介绍及实现

机器学习数据预处理之One-Hot Encoding

数据处理——One-Hot Encoding

python 独热码one hot encoding的用法

数据处理——One-Hot Encoding 数据处理——One-Hot Encoding

数据预处理-定类数据处理定类离散特征转化为One-Hot-Encoding独热编码

学习笔记12：用 Scikit-Learn 实现 One-Hot Encoding（独热编码）

对dataframe中的某一列进行独热编码(One-Hot Encoding)

调试经验——Tensorflow中生成独热编码（One-hot encoding）

机器学习：数据预处理之独热编码（One-Hot）

机器学习数据预处理1：独热编码（One-Hot）及其代码

数据预处理：独热编码（One-Hot Encoding）均值、方差与协方差矩阵矩阵论：向量范数和矩阵范数再谈机器学习中的归一化方法（Normalization Method） Sigmod/Softmax变换 Scikit-learn：数据预处理Preprocessing data

【转】数据处理——One-Hot Encoding

One-Hot Encoding

One-Hot Encoding详解

什么是One-Hot Encoding？

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)