零基础上手Python数据分析 (11):DataFrame 数据清洗与预处理 (上) - 搞定缺失值、重复值和异常值

写在前面

上一篇博客,我们学习了如何灵活地索引和选取 DataFrame 中的数据,这为我们深入操作数据打下了基础。 然而,在我们拿到原始数据,准备开始大展身手进行分析之前,往往需要先进行一个至关重要的步骤:数据清洗与预处理 (Data Cleaning and Preprocessing)

“脏数据”:数据分析路上的拦路虎

现实世界中的数据很少是完美无缺的,它们常常充满各种问题,也就是我们常说的 “脏数据”

  • 缺失值 (Missing Values): 数据表中存在空白单元格、N/ANULL 等表示数据缺失的情况。例如,用户注册时未填写年龄、传感器数据采集失败等。
  • 重复值 (Duplicate Values): 数据表中存在完全相同或部分字段相同的重复记录。例如,用户重复提交订单、数据导入过程中出错导致重复录入等。
  • 异常值 (Outliers): 数据中存在明显偏离正常范围的极端值或错误值。例如,年龄填写为 200 岁、销售额出现负数等。
  • 数据类型不一致 (Inconsistent Data Types):<