Dummy variable (变量dummy化)

版权声明: 本文为博主原创文章,未经博主允许不得转载 https://blog.csdn.net/u011467621/article/details/48754679

BY joey周琦

总是可以从身边同学口中听到说到dummy化,dummy lr, 今天自己看了dummy variable的wiki,这里记下笔记总结:

  • dummy variable是用0或1表示某个类别是否出现
  • 为什么要dummy化
    • 若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的很近
    • 若用离散数字表示一地域,假如用数字1-23表示23个省,那么数字潜在的意思是,相邻的数字代表的省比较相似,差距的数字表示的省不相似,然而并没有这个意思。所以用单纯用离散的数字表示类别可能会影响后面回归或分类的精度
  • 另外要注意的是,dummy化不要冗余,比如有1-23个省,我们用22个0,1变量就可以表示,若22个变量都是0则表示第23个省。

猜你喜欢

转载自blog.csdn.net/u011467621/article/details/48754679