特征为分类变量时,进行编码处理——pd.get_dummies()、oneHotEncoder()、LabelEncoder()

处理原因:

在拿到的数据里,经常会有类似:
国籍:中国、美国、英国、日本、俄罗斯
性别:男、女
手机品牌:华为、OPPO、魅族、苹果、vivo
的分类型数据,一般我们会将它们进行编码处理,以便于我们的建模。
注意:如果分类很多,那么可能会造成数据的稀疏性,可结合PCA来用
但是在基于树的模型里,我们不用此类编码,因为这会增加

优点:

缺点:

处理方法方法:

LabelEncoder()

可以对不连续数字or文本进行编码

oneHotEncoder()

仅可对数字进行编码,对文本分类变量处理前,要用LabelEncoder()处理后再用oneHotEncoder()
返回的是数组

pd.get_dummies()

返回的是数据框

猜你喜欢

转载自www.cnblogs.com/wyy1480/p/10295084.html