Python基本的数据清洗

  接触Python两年多了,还从来没有独立用Python完成一个项目,说来惭愧。最近因为工作需要,用Excel和oracle整理数据貌似不可行了,于是转向Python,理所当然的踩了很多坑,一一记录下来,避免以后再次入坑,毕竟不常用,好了伤疤就会忘了疼···

业务场景:

  领导拿来几个Excel,共150W条保险数据,需要按照特定规则筛选出满足条件的数据。

  字段:业务机构、保单号、案件号、被保险人、代码1、标的车号、VIN码、驾驶员、电话、出险时间、出险经过、维修企业、定损金额、三者车号、三者VIN、三者驾驶员、代码2、三者维修企业、查勘定损人员;

  150W条数据没有唯一标识字段:同一个案件号对应一个标的车号、0-多个三者车号,一个标的车号对应一个或多个保单号,所以需要通过标的车号、保单号、报案号三个字段唯一确定一条理赔记录。

  筛选规则:

  电话频率大于等于3次(1年内);车架号(标的及三者大于等于3次(1年内;驾驶员姓名(标的及三者)大于等于3次(1年内),标的与三者维修单位为同一修配厂的;同一车号或是车架号在10日内出险两次的;出险时间在21:00~6:00的案件,做风险标识。

  给到的数据,有以下几个问题:

  1. 部分记录数据不完整,整体缺失率较低
  2. 部分字段信息录入错误,比如,电话字段中出现字符、时间字段中出现11位数字(疑似电话信息)
  3. 有重复数据
  4. Excel数据表列名不一致

问题总结:

  这就是一个简单的数据筛选工作!

  但是刚好工作不忙,刚好也想拿数据练练手,于是就开始操练起来了~

    动手之前,要通过各种途径对数据进行全方位的了解,否则,浪费时间!

         通过向数据来源方询问变量之间的关系、通过常识判断各变量的取值特性、通过探索性分析了解各变量的缺失/取值情况、结果导向分析数据清洗过程中可能会遇到的问题。

问题分解:

  1. 数据存储在多个Excel表格中,将这些数据读到一个变量中
  2. 按筛选条件整理数据
  3. 输出筛选数据

代码部分,我要放到另一篇文章里面~

猜你喜欢

转载自www.cnblogs.com/cyxiaer/p/9501926.html