数据清洗--python

1.1引言

    对于处理大数据问题,首先就是要进行数据预处理,排除掉那些那些很离谱的数据,当然我们肯定不能一个一个用眼睛来找(容易累死),所以我们就要学会如何用程序来进行数据的预处理,我们常常用两种语言:matlab和python,这里我先介绍一下用python进行数据清洗。

1.2准备

    首先去官网安装python ,然后打开你的控制台,在里面输入

pip install numpy
pip install pandas 

1.3数据清洗

1)数据读取

import numpy as np
import pandas as pd
loandata = pd.DataFrame(pd.read_excel('你的excel文件名.xlsx'))

2)重复值处理

loandata.duplicated()#寻找重复值
loandata.drop_duplicates()#删除重复值

3)空值即缺失值处理

loandata.isnull()#寻找空值,返回bool类型
loandata.notnull()#寻找非空值
loandata.fillna(0)#空值用0填充
loandata.dropna()#空值舍去

4)异常值,极端值处理

loandata.describe().astype(np.int64).T#使用describe函数可以生成描述统计结果,大体检测是否有异常,极端值
loandata.replace([100000,36],loandata['你的项目中的一项'].mean())#异常值替换
loandata['你的项目中的一项']=loandata['你的项目中的一项'].astype(np.int64)#更改数据格式

1.4总结

    先写到这,以后在再补一补,总之没经过处理过的数据进行NN训练或者送进类似xgboost模型跑出来的数据评分都很低,所以一定要学会数据预处理的方法。





猜你喜欢

转载自blog.csdn.net/algorithm_lixuan/article/details/79648352