1、将两张表拼接在一起
◆pd.merge(表1,表2,left_on='左属性',right_on='右属性',how='outer')
#这里pd要先导入pandas包;how的值,left左连接,right右连接,outer外连接,inner内连接
◆pd.concat([表1,表2],axis=0)
#这里的拼接是竖着直接拼接,若axis=1则是横着拼接
2、查看缺失值情况
◆查看表里各列缺失值的个数
表.apply(lambda x:sum(x.isnull()),axis=0)
◆查看某一属性列缺失值的详细情况
x=表[pd.isnull(表['属性名'])]
len(x)#用来查看缺失值个数
3、缺失值的填充
◆表['属性名']=表['属性名'].fillna(值)
#一般来说,填充用均值、众数等,或者直接删除
4、值.strip('acb')、值.replace('abc','123')
◆strip是首尾两端开始去掉在'acb大小'里的部分,即(a、b、c、大、小)都要去掉,直至遇到不在里面的
例如:a='bcda大中小大a',则a.strip('acb大小')结果是 'da大中'
◆replace是一整块替换,将值里面'abc'整块替换为'123',必须是'abc'一整块的才会替换
5、删除某一列
◆del 表['属性列']
6、删除某一行
◆表.drop(i)
删除第i行
7、删除含缺失值的所有行
◆表.dropna(axis=0)
8、删除含缺失值的所有列
◆表.dropna(axis=1)
9、时间处理
◆from datetime import datetime
datetime.now()
#查看现在时间
◆只保留年月日
datetime.date(时间)
◆将字符串转化为时间的datetime格式
例如某一列的时间形式为“2012/07/28”
pd.to_datetime(表['时间列名'],format='%Y/%m/%d')
#如果不是用的斜杠,比如是“-”,只需将format里的斜杠改为“-”即可
◆年Y
月m
日d
时H
分M
秒S
python数据清洗1
猜你喜欢
转载自blog.csdn.net/weixin_42553433/article/details/81490502
今日推荐
周排行