处理原因:
在拿到的数据里,经常会有类似:
国籍:中国、美国、英国、日本、俄罗斯
性别:男、女
手机品牌:华为、OPPO、魅族、苹果、vivo
的分类型数据,一般我们会将它们进行编码处理,以便于我们的建模。
注意:如果分类很多,那么可能会造成数据的稀疏性,可结合PCA来用
但是在基于树的模型里,我们不用此类编码,因为这会增加
优点:
缺点:
处理方法方法:
LabelEncoder()
可以对不连续数字or文本进行编码
oneHotEncoder()
仅可对数字进行编码,对文本分类变量处理前,要用LabelEncoder()处理后再用oneHotEncoder()
返回的是数组
pd.get_dummies()
返回的是数据框