pands的get_dummies()与sklern的OneHotEncoder使用及性能对比

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/real_ilin/article/details/83831895

在机器学习中,处理特征的类别是一种非常常见的需求。比如手机品牌,星期,性别等等。有两种思路,一种是每个类别一个数字,也就是LabelEncoding的方式,如:周一编码1,周二编码2,周三编码3。这种处理方法的好处是处理方便。但存在的问题是每两个之间的距离是不一样的。周一与周二,周二与周三的距离为1,但周一与周三的距离为2。
第二种思路为OneHotEncoding,周一为[1,0,0],周二为[0,1,0],周三为[0,0,1]。这样的好处是每个类别之间的距离是一样的。
对于基于决策树的分类器,可以使用第一种编码方式,但是对于基于距离的模型需要使用第二种编码方式,如神经网络。

猜你喜欢

转载自blog.csdn.net/real_ilin/article/details/83831895