Panda下的 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_38208741/article/details/81570294

最近在学习过程中,需要使用Pandas下的pd.get_dummies() 的函数,使用对其进行简单的总结下,也给需要使用的小伙伴们提供参考:

   开始主题。。。。

  • sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字);

1. 简单区别

Panda’s get_dummies vs. Sklearn’s OneHotEncoder() :: What is more efficient?

  • sklearn.preprocessing 下的 OneHotEncoder 不可以直接处理 string,如果数据集中的某些特征是 string 类型的话,需要首先将其转换为 integers 类型;

    • 在新版本中 sklearn 中,OneHotEncoder 实例的 fit 方法将不再接收 1 维数组,而必须是显式的二维形式;
    encoder = OneHotEncoder()
    encoder.fit([[1, 2], [2, 1]])
    •  
  • pd.get_dummies(),则恰将 string 转换为 integers 类型:

    >> pd.get_dummies(['12', '13', '14'])
       12   13   14
    0  1    0    0
    1  0    1    0
    2  0    0    1
    •  

2. sklearn.feature_extraction 下的 DictVectorizer

How can i vectorize list using sklearn DictVectorizer

将字典类型表示的属性,转换为向量类型:

>> measurements = [
     {'city=Dubai': True, 'city=London': True, 'temperature': 33.},
     {'city=London': True, 'city=San Fransisco': True, 'temperature': 12.},
     {'city': 'San Fransisco', 'temperature': 18.},
]

>> vec.feature_names
['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']


>> vec.fit_transform(measurements).toarray()
array([[  1.,   1.,   0.,  33.],
       [  0.,   1.,   1.,  12.],
       [  0.,   0.,   1.,  18.]])

猜你喜欢

转载自blog.csdn.net/weixin_38208741/article/details/81570294