pandas 下的 one hot encoder 及 pd get dummies 与 sklearn prepr

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!

                       
  • sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder(简单地将 categorical labels 转换为不同的数字);

1. 简单区别

Panda’s get_dummies vs. Sklearn’s OneHotEncoder() :: What is more efficient?

  • sklearn.preprocessing 下的 OneHotEncoder 不可以直接处理 string,如果数据集中的某些特征是 string 类型的话,需要首先将其转换为 integers 类型;

    • 在新版本中 sklearn 中,OneHotEncoder 实例的 fit 方法将不再接收 1 维数组,而必须是显式的二维形式;
    encoder = OneHotEncoder()encoder.fit([[1, 2], [2, 1]])
         
         
    • 1
    • 2
  • pd.get_dummies(),则恰将 string 转换为 integers 类型:

    >> pd.get_dummies(['A', 'B', 'A'])   A  B0  1  01  0  12  1  0
         
         
    • 1
    • 2
    • 3
    • 4
    • 5

2. sklearn.feature_extraction 下的  DictVectorizer

How can i vectorize list using sklearn DictVectorizer

将字典类型表示的属性,转换为向量类型:

>> measurements = [     {'city=Dubai': True, 'city=London': True, 'temperature': 33.},     {'city=London': True, 'city=San Fransisco': True, 'temperature': 12.},     {'city': 'San Fransisco', 'temperature': 18.},]>> vec.feature_names['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']>> vec.fit_transform(measurements).toarray()array([[  1.,   1.,   0.,  33.],       [  0.,   1.,   1.,  12.],       [  0.,   0.,   1.,  18.]])
   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
           

给我老师的人工智能教程打call!http://blog.csdn.net/jiangjunshow

这里写图片描述

猜你喜欢

转载自blog.csdn.net/hftytf/article/details/84192538