one-hot编码（独热编码）

其他 2018-09-24 09:29:26 阅读次数: 0

一、One-Hot Encoding

One-Hot 编码，又称为一位有效编码，主要是采用 $N$ 位状态寄存器来对 $N$ 个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

在实际的机器学习的应用任务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“ male ”和“ female ”。在机器学习任务中，对于这样的特征，通常我们需要对其进行特征数字化，如下面的例子：

有如下三个特征属性：

性别：["male"，"female"]
地区：["Europe"，"US"，"Asia"]
浏览器：["Firefox"，"Chrome"，"Safari"，"Internet Explorer"]

对于某一个样本，如["male"，"US"，"Internet Explorer"]，我们需要将这个分类值的特征数字化，最直接的方法，我们可以采用序列化的方式：[0,1,3]。但是这样的特征处理并不能直接放入机器学习算法中。二、 One-Hot Encoding 的处理方法

对于上述的问题，性别的属性是二维的，同理，地区是三维的，浏览器则是思维的，这样，我们可以采用One-Hot编码的方式对上述的样本“["male"，"US"，"Internet Explorer"]”编码，“male”则对应着[1，0]，同理“US”对应着[0，1，0]，“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为：[1,0,0,1,0,0,0,0,1]。这样导致的一个结果就是数据会变得非常的稀疏。

实际的 Python 代码

[python]view plain copy
from sklearn import preprocessing  
  
enc = preprocessing.OneHotEncoder()  
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])  
  
array = enc.transform([[0,1,3]]).toarray()  
  
print array  

结果：[[ 1. 0. 0. 1. 0. 0. 0. 0. 1.]]

猜你喜欢

转载自blog.csdn.net/xiaogss/article/details/79785086

one-hot编码（独热编码）

独热编码 one-hot Encoding

One-Hot Encoding独热编码

One-Hot Encoding 独热编码

独热编码（One-Hot）的理解

独热编码（One-Hot Encoding）

one-hot 独热编码tf.one_hot()

one-hot编码/哑编码/独热编码

独热编码(one-hot encoding)与哑编码

[机器学习]One-Hot编码总结(独热编码)

独热编码（One-Hot Encoding）介绍及实现

数据预处理：独热编码（One-Hot Encoding）

独热（one-hot）编码的tensorflow实现

文本表示方法--独热编码(One-Hot)

数据预处理--独热编码（One-Hot Encoding）和 LabelEncoder标签编码

机器学习代码实战——One-Hot编码（独热编码）

one-hot编码

one-hot 编码

学习笔记12：用 Scikit-Learn 实现 One-Hot Encoding（独热编码）

机器学习数据预处理之独热编码（One-Hot Encoding）

机器学习：数据预处理之独热编码（One-Hot）

机器学习数据预处理之独热编码（One-Hot Encoding）[zz]

python数据预处理：字符变量独热编码(one-hot encoding)

数据预处理之独热编码（One-Hot Encoding）

机器学习中为何要使用独热编码 one-hot

对dataframe中的某一列进行独热编码(One-Hot Encoding)

机器学习之独热编码（One-Hot）详解（代码解释）

调试经验——Tensorflow中生成独热编码（One-hot encoding）

文本表示（one-hot独热编码&分布式表示）

机器学习数据预处理1：独热编码（One-Hot）及其代码

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)