非平衡数据处理几个观点 - 代码天地

非平衡数据处理几个观点

编程语言 2019-03-24 17:13:21 阅读次数: 0

版权声明：本文为博主原创文章，转载时请附上原文链接。 https://blog.csdn.net/littlely_ll/article/details/88777352

1.使用正确的评价准则

对于非平衡数据，准确率这种评价准则可能不能用了，比如1000个样本中，只有10个为正样本，如果全预测为负样本，则准确率为99%，但这种模型根本就没用。这种情况，可以使用其他准则：

Precision

Recall

F1 score

MCC: 观察和预测类别之间的相关系数

AUC

2.训练集重抽样

2.1 欠采样

2.2 过采样

3.合理使用k折交叉验证

需要注意在使用过采样处理非平衡数据时，应合理使用交叉验证。过采样基于一定的分布，使用boostrap方法从少量正样本中抽取数据，如果在过采样之后使用交叉验证，那么我们的模型会过拟合抽取的特定的数据，这就是为什么交叉验证要在过采样数据之前使用。

4.集成不同的抽样数据集

最简单的泛化模型就是使用更多的数据，大师很多分类器比如logistic回归和RF一般趋向于去掉噪声样本，这使得他们不能正确分类少数类别。一个简单的办法就是建立n个模型，每个模型使用所有的正样本和部分负样本，这有些类似nagtive sampling。假设你想集成10个模型，并假设有100个正样本和10000负样本，那么每个模型使用的数据都包含着100个正样本，并从10000个负样本中抽样1000个负样本，最后集成这10个模型。

5.对负样本进行聚类

除了对负样本进行随机抽样，也可以把负样本聚成R类（R为要采样的数量），这样对于每一类，只保留中心样本，这样模型使用的数据只包含正样本和R个负样本。Quora

6.设计自己的模型

使用XGBoost等一些集成模型，设计损失函数惩罚对正样本的错误分类

猜你喜欢

转载自blog.csdn.net/littlely_ll/article/details/88777352

非平衡数据处理几个观点

机器学习︱非平衡数据处理方式与评估

Spark -- Spark的smote算法，非平衡数据处理示例

非平衡数据处理SMOTE的改良算法-borderline SMOTE, ADASYN

非平衡数据的处理方法

不平衡数据处理

不平衡数据处理-imblearn

数据处理三数据类别平衡（难易样本平衡）

几个常用的数据处理代码实现

处理非平衡数据集——SMOTE算法

解决非平衡的数据处理方式

不平衡数据处理--学习笔记

数据处理时写的几个小工具

关于数据处理的几个踩过坑的案例

Pandas 数据处理(一) —— 几个简单函数掌握！

【转】Pandas 数据处理(一) —— 几个简单函数掌握！

非平衡数据集的机器学习常用处理方法

大数据处理逻辑与关键技术（非原创）

真实世界研究-非结构化数据处理

人工智能中非平衡数据处理方法、欠采样、过采样讲解（简单易懂）

【数据处理】如何处理机器学习中的非均衡数据集？

高频数据处理技巧：数据库非等间隔的时间序列处理

数据预处理-非平衡样本的处理方式(SMOTE--待补充)

海量数据处理

数据处理

Oracle——数据处理

大数据处理

RocketMq数据处理

json数据处理

数据处理函数

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)