python数据清洗之学习总结--目录

引言

数据清洗实质上是将实际业务问题中,脏数据清洗干净,转换为’干净的数据’, 所谓的脏 ,指数据可能存在以下几种问题(主要问题):

数据缺失(Incomplete) 是属性值为空的情况。如 Occupancy = “ ”

数据噪声 (Noisy) 是数据值不合常理的情况。如 Salary = “-100”

数据不一致 (Inconsistent) 是数据前后存在矛盾的情况。如 Age = “042” 或者 Birthday = “01/09/1985”

数据冗余 (Redundant) 是数据量或者属性数目超出数据分析需要的情况

离群点/异常值(Outliers) 是偏离大部分值的数据 数据重复是在数据集中出现多次的数据

一、数据预处理之常用工具

  1. Numpy
    1.1 常用数据结构
    1.2 常用方法
    1.3 数据访问方法
    1.4 Numpy常用清洗函数
  2. Pandas
    2.1 series和方法
    2.2 dataframe和方法

二、数据清洗之文件读写

  1. csv文件读写
  2. excel文件读写
  3. 数据库文件读写
    3.1 查询数据库
    3.2 写入数据库

三、数据清洗之数据表处理

  1. 数据常用筛选方法
  2. 在数据中,直接添加列
  3. 数据的修改和查找
  4. 数据整理
    4.1 pd.concat
    4.2 pd.merge
  5. 层次化索引

四、数据清洗之数据转换

  1. 日期格式数据处理
  2. 高阶函数数据处理
  3. 字符串数据处理

五、数据清洗之数据统计

  1. 数据分组运算
  2. 聚合函数使用
  3. 分组对象与apply函数
  4. 透视图与交叉表
    透视图
    交叉表用于计算分组频率

六、数据清洗之数据预处理

  1. 重复值处理
  2. 缺失值处理
  3. 异常值处理
  4. 数据离散化

总结

步骤:

  1. 数据获取,使用read_csv或者read_excel
  2. 数据探索,使用shape,describe或者info函数
  3. 行列操作,使用loc或者Iloc函数
  4. 数据整合,对不同数据源(数据表)的数据进行整理
  5. 数据类型转换,数值型。日期型。字符串互相转换
  6. 分组汇总,对数据进行各个维度计算
  7. 处理重复值、缺失值、异常值,数据离散化

函数大全:

  1. merge,cancat函数用于数据整合
  2. pd.to_datetime 日期格式转换
  3. str函数用于字符串操作
  4. astype函数用于数据类型转换
  5. apply和map函数用于高级的数据处理
  6. groupby用于创建分组对象
  7. 透视表pd.pivot_table和交叉表pd.crosstab
  8. 分组对象和agg结合使用,统计需要信息
发布了94 篇原创文章 · 获赞 24 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qq_32392597/article/details/105039357
今日推荐