非平衡数据集的机器学习常用处理方法 - 代码天地

非平衡数据集的机器学习常用处理方法

其他 2018-07-10 23:32:50 阅读次数: 0

作者：离散木木夕

欢迎大家给出宝贵的建议！

非平衡数据集的机器学习常用处理方法

1.收集更多的数据

2.尝试改变性能评价标准：【当数据不平衡，准确度已经失去了它原有的意义】

（1）混淆矩阵

（2）精度

（3）召回率

（4）F1分数（权衡精度和召回率）

（5）Kappa（衡量分类精度）

（6）Roc曲线（曲线面积就是AUC）

3.重采样数据（结合正则化模型）

（1）过采样只是单纯的重复了正例（最大风险就是对正例过拟合）

（2）欠采样抛弃了大部分反例数据（可能造成偏差很大的模型）

4.生成合成数据

随机采样样本数目比较少的属性

SMOTE，合成少数类过采样技术【本算法基于“插值”来为少数类合成新的样本，存在一定盲目性】

考虑该少数类【正例】的一个样本i，其特征向量为

（1）首先从该少数类的全部T个样本中找到Xi的K（用户自行选择）个近邻（例如用欧式距离），记为

（2）然后从这k个近邻中随机选择一个样本Xi(nn)，再生成一个0到1之间的随机数，从而合成一个新样本Xi1：

（3）讲步骤2重复进行N次，从而可以合成N个新样本：。那么，对全部的T个少数类样本进行上述操作，便可为该少数类合成N个新样本【N必须是正整数】

如果样本特征是2维，每个样本都可以用一个点表示。那Xi1相当于Xi和Xi(nn)之间的一个点。相当于“插值”。

5.使用不同的算法

尝试不同的方法，决策树一般在不平衡数据集上表现的比较好。

6.尝试惩罚模型

就是添加新的惩罚项到cost函数中（比如带惩罚项的SVM），以使得小样本的类别被判断错误的cost更大，迫使模型重视小样本的数据。

7.使用不同的视角

有专门领域和算法做这个（不平衡数据集）

比如异常检测

8.尝试新的改进

把样本比较多的类别，分解为一些更多的小类别。

比如区分数字0和其他数字。可以把其他数字分为0~9类。

猜你喜欢

转载自blog.csdn.net/jonyhwang/article/details/80975649

非平衡数据集的机器学习常用处理方法

【机器学习】非平衡数据集的机器学习常用处理方法

机器学习之不平衡数据集的处理方法

非平衡数据的处理方法

机器学习︱非平衡数据处理方式与评估

处理非平衡数据集——SMOTE算法

机器学习23:过拟合和欠拟合的常用处理方法

非平衡数据机器学习

机器学习-不平衡数据集

不平衡数据集处理方法

Drawable常用处理方法

JAVA常用处理数据

基本数据类型的常用处理方法

数据分析常用处理方法总结

机器学习笔记 - 微型不平衡数据集的处理思路参考

【数据处理】如何处理机器学习中的非均衡数据集？

常用机器学习数据集

机器学习常用数据集

机器学习任务中，数据不平衡问题处理方法

机器学习：正负样本数据量不平衡处理方法

字符串常用处理方法

字符串的常用处理方法

数组对象的常用处理方法

机器学习中常用的数据预处理方法

机器学习深度学习常用数据集

机器学习中样本不平衡的处理方法

Credit Fraud信用卡欺诈数据集，如何处理非平衡数据

机器学习中不平衡数据的处理方式

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)