机器学习中如何处理缺失数据?

  1. 如果缺失值的样本占总数比例极高,一般直接舍弃了,否则作为特征加入的话,可能会带入noise,影响结果
  2. 如果样本缺失值适中,而该属性为非连续值特征属性(比如说类目属性),可以把NAN作为新类别,加到类别特征中。
  3. 如果样本缺失值适中,而该属性为连续值特征属性,可以考虑一个step把它离散化,然后把NAN作为一个type加到类目属性中。
  4. 如果缺失的值不是特别多,可以进行填充:固定值填充、均值填充、上/下数据填充,插值法填充、算法拟合填充。
  5. 当train中有缺失值,而test中没有缺失值时,可以对缺失值取条件均值或者条件中值。(条件均值即根据该用户的label值类别,取所有该label下的用户该属性的均值)
  6. 当train和test都有大量缺失值时,可以考虑将缺失值也作为一种特征,在该特征下根据是否缺失将其分为0和1两种

猜你喜欢

转载自blog.csdn.net/hai008007/article/details/80067865