［每日问答］缺失值如何处理？ - 代码天地

［每日问答］缺失值如何处理？

其他 2018-06-30 05:09:38 阅读次数: 2

1.删除
当某个变量或者某个样本中缺失值占比过大时，那么我们可以认为这一变量或者样本没有意义，可以直接删除。

2.补全
（1）用平均值、中值、分位数、众数、随机值等替代。效果一般，因为等于人为增加了噪声。
（2）用其他变量做预测模型来算出缺失变量，效果比方法（1）略好。有一个根本缺陷，如果其他变量和缺失变量无关，则预测的结果无意义。如果预测结果相当准确，则又说明这个变量是没必要加入建模的。
（3）把变量映射到高维空间。比如性别，有男、女、缺失三种情况，则映射成3个变量：是否男、是否女、是否缺失。连续型变量也可以这样处理，比如Google、百度的CTR预估模型，预处理时会把所有变量都这样处理，达到几亿维。这样做的好处是完整保留了原始数据的全部信息，不用考虑缺失值和线性不可分之类的问题，缺点是计算量大大提升。

3.忽略
有一些模型如随机森林，人工神经网络等，自身能够处理数据缺失的情况，在这种情况下不需要对缺失数据做任何的处理，这种做法的缺点是在模型的选择上有局限。

参考文献

https://www.zhihu.com/question/26639110

猜你喜欢

转载自blog.csdn.net/cloud_xiaobai/article/details/72083968

［每日问答］缺失值如何处理？

Xgboost如何处理缺失值

随机森林如何处理缺失值？

数据的预处理基础：如何处理缺失值

统计|如何处理数据处理中的缺失值？

机器学习-如何处理数据集中的缺失值

机器学习如何处理数据中的缺失值

python—如何处理文件中的缺失值

大数据处理（一）如何处理数据集中的缺失值

决策树、RF、xgboost如何处理缺失值？判断特征重要性？缺失值不敏感？

stata如何处理结构方程模型（SEM）中具有缺失值的协变量

如何处理深度学习中的缺失值和异常值？

机器学习中的特征工程和数据预处理技术是什么？如何处理缺失值和异常值？

机器学习中如何处理缺失数据？

Pandas中时间序列缺失如何处理？

【数据分析】缺失数据如何处理？pandas

如何处理线程的返回值

MySQL NULL 值如何处理？

python缺失值处理

pandas缺失值处理

缺失值处理（Imputation）

R 缺失值处理

处理缺失值

3.5 处理缺失值

缺失值处理

Python处理缺失值

缺失值处理方法

pandas 处理缺失值

缺失值处理1

dataframe缺失值处理

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)