机器学习数据预处理1:独热编码(One-Hot)及其代码

文章:http://t.csdn.cn/ndFcq

1. 为什么使用 one-hot 编码?

问题:
在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等。 这些特征值并不是连续的,而是离散的,无序的。

目的:

       如果要作为机器学习算法的输入,通常我们需要对其进行特征数字化。什么是特征数字化呢?例如:

       性别特征:["男","女"]

       祖国特征:["中国","美国,"法国"]

       运动特征:["足球","篮球","羽毛球","乒乓球"]

瓶颈:

假如某个样本(某个人),他的特征是 [“男”,“中国”,“乒乓球”] ,我们可以用 [0,0,4] 来表示,但是这样的特征处理并不能直接放入机器学习算法中。因为类别之间是无序的。

猜你喜欢

转载自blog.csdn.net/qq_45583898/article/details/126886293