机器学习中如何处理缺失数据？ - 代码天地

机器学习中如何处理缺失数据？

其他 2018-05-08 05:07:27 阅读次数: 3

如果缺失值的样本占总数比例极高，一般直接舍弃了，否则作为特征加入的话，可能会带入noise,影响结果
如果样本缺失值适中，而该属性为非连续值特征属性（比如说类目属性），可以把NAN作为新类别，加到类别特征中。
如果样本缺失值适中，而该属性为连续值特征属性，可以考虑一个step把它离散化，然后把NAN作为一个type加到类目属性中。
如果缺失的值不是特别多，可以进行填充：固定值填充、均值填充、上/下数据填充，插值法填充、算法拟合填充。
当train中有缺失值，而test中没有缺失值时，可以对缺失值取条件均值或者条件中值。（条件均值即根据该用户的label值类别，取所有该label下的用户该属性的均值）
当train和test都有大量缺失值时，可以考虑将缺失值也作为一种特征，在该特征下根据是否缺失将其分为0和1两种

猜你喜欢

转载自blog.csdn.net/hai008007/article/details/80067865

机器学习中如何处理缺失数据？

机器学习如何处理数据中的缺失值

机器学习-如何处理数据集中的缺失值

机器学习中的特征工程和数据预处理技术是什么？如何处理缺失值和异常值？

统计|如何处理数据处理中的缺失值？

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据

【数据处理】如何处理机器学习中的非均衡数据集？

机器学习和深度学习中如何处理数据不平衡问题

数据的预处理基础：如何处理缺失值

如何处理深度学习中的缺失值和异常值？

【数据分析】缺失数据如何处理？pandas

Pandas中时间序列缺失如何处理？

python—如何处理文件中的缺失值

机器学习中数据缺失值处理方法

机器学习数据中缺失值的处理方法

机器学习中缺失值的处理

机器学习中缺失值处理

从重采样到数据合成：如何处理机器学习中的不平衡分类问题？

［每日问答］缺失值如何处理？

Xgboost如何处理缺失值

随机森林如何处理缺失值？

大数据处理（一）如何处理数据集中的缺失值

详解机器学习中的数据处理（一）——缺失值处理（附完整代码）

[转]如何处理机器学习中的不平衡类别

如何处理机器学习中的不平衡类别

【机器学习】在分类中如何处理训练集中不平衡问题

机器学习中如何处理样本不均衡问题

机器学习：如何处理决策树中的连续值

【火炉炼AI】机器学习015-如何处理样本数偏差较大的数据集

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

周排行

mongodb 下载与安装与初步使用

20190530

iOS录制回放神器AutoTouch使用介绍

同心圆猜数字游戏

mamp pro安装redis扩展各个步骤截图

windows10下安装docker报错：error during connect

跨域授权 Federated Identity Pattern

js时间比较大小

pandas to_csv()使用方法

从JDK源码角度看Byte

每日归档

更多

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)