python数据清洗1

1、将两张表拼接在一起

  ◆pd.merge(表1,表2,left_on='左属性',right_on='右属性',how='outer')
    #这里pd要先导入pandas包;how的值,left左连接,right右连接,outer外连接,inner内连接

  ◆pd.concat([表1,表2],axis=0)
    #这里的拼接是竖着直接拼接,若axis=1则是横着拼接

2、查看缺失值情况

  ◆查看表里各列缺失值的个数
    表.apply(lambda x:sum(x.isnull()),axis=0)

  ◆查看某一属性列缺失值的详细情况
    x=表[pd.isnull(表['属性名'])]
    len(x)#用来查看缺失值个数

3、缺失值的填充

  ◆表['属性名']=表['属性名'].fillna(值)
    #一般来说,填充用均值、众数等,或者直接删除

4、值.strip('acb')、值.replace('abc','123')

   ◆strip是首尾两端开始去掉在'acb大小'里的部分,即(a、b、c、大、小)都要去掉,直至遇到不在里面的
     例如:a='bcda大中小大a',则a.strip('acb大小')结果是 'da大中'

   ◆replace是一整块替换,将值里面'abc'整块替换为'123',必须是'abc'一整块的才会替换


5、删除某一列
   
   ◆del 表['属性列']

6、删除某一行

   ◆表.drop(i)
     删除第i行

7、删除含缺失值的所有行

   ◆表.dropna(axis=0)


8、删除含缺失值的所有列

   ◆表.dropna(axis=1)

9、时间处理

   ◆from datetime import datetime
     datetime.now()
     #查看现在时间

   ◆只保留年月日
     datetime.date(时间)

   ◆将字符串转化为时间的datetime格式
     例如某一列的时间形式为“2012/07/28”
     pd.to_datetime(表['时间列名'],format='%Y/%m/%d')
     #如果不是用的斜杠,比如是“-”,只需将format里的斜杠改为“-”即可
    
   ◆年Y   
     月m
     日d
     时H
     分M
     秒S

猜你喜欢

转载自blog.csdn.net/weixin_42553433/article/details/81490502