python数据挖掘——数据预处理

版权声明:未经同意窃取和转载我的内容,如果涉及到权益问题,后果自负! https://blog.csdn.net/weixin_41605937/article/details/84927922

在数据挖掘中 海量的数据存在大量的不完整(有缺失值)、不一致 有异常的数据,严重影响到数据的挖掘的建模过程执行的效率。甚至导致挖掘的数据结果偏差甚大。数据挖掘预处理的过程中主要包括:数据清洗,数据集成,数据变换,数据规约。

处理过程如图:

4.1 数据的清洗主要是对原始数据集中的无关数据 重复数据 平滑噪声数据 筛选掉与挖掘数据无关的数据,处理缺失值、异常值等。

4.1.1 缺失值得处理:包括三张方式:1 删除记录 2 数据补差 3 不处理:

重点介绍拉格朗日插值法 牛顿插值法 还有Hermite插值法 分段插值 样条插值法。

 

猜你喜欢

转载自blog.csdn.net/weixin_41605937/article/details/84927922