python—如何处理文件中的缺失值

文章目录


首先要确定文件中用什么来表示缺失值,常用的有""、‘NaT’、‘nan’,‘null’,那该怎么确定呢?

以"“为例,
在这里插入图片描述
如果查找到”",表明表格中以""表示缺失值,为了便于后续的缺失值统计与填充,需要将’'转换成np.NaN


data.replace('', np.NaN, inplace=True)

其他同理

data.replace("NaT", np.NaN, inplace=True)
data.replace("nan", np.NaN, inplace=True)
data.replace("null", np.NaN, inplace=True)

接下来就可以使用pandas中对缺失值进行操作了

  • 统计缺失值

    # 统计data里每一列是否有空值:
    data.isnull().any()
    # 统计data里每一列空值的个数:
    data.isnull().any().sum()
    
  • 查看列的数据格式

    data[col].dtype
    
  • 填充缺失值
    缺失值填充一般不会如下填充,

    data.fillna(0)
    

    因为填充要分为连续型变量缺失还是类别型变量缺失,需要根据缺失比例,删除一部分,剩下的在针对是什么类型的变量分别采取措施进行填充
    具体可以参考该案例

猜你喜欢

转载自blog.csdn.net/weixin_46649052/article/details/114661004
今日推荐