解决非平衡的数据处理方式 - 代码天地

解决非平衡的数据处理方式

其他 2018-06-08 05:08:38 阅读次数: 0

// 学习笔记，勿喷，xjb写的，借鉴的地方很多

SMOTE 算法介绍

由于在实际运用中，对于分类问题中，因变量时存在很大地差距的，对应的比列严重失调。因为非类的样本毕竟在真实情况下所占的比例时很小的一块。

对于数据严重有偏的，对应的预测的结果也是有偏的，因此对应的分类结果很大程度地偏向较多观测样本的类别。因此，我们在这里需要很大程度的去构造出 1 ： 1的数据比例。如果直接使用过采样的处理方式，这样放回的样本是之前数据的简单的拟合，因此在这里是会出现模型的过拟合的情况；如果直接采用欠采样的处理方式，这样就会导致对应的正样本中间的数据被砍掉了很大的一部分，会导致某些信息的丢失。

SMOTE 算法是采用对于少类的数据样本进行分析和模拟，将人工模拟出来的数据添加到对应的数据集中间去，进而使得原始的数据集中的类别变得不再严重失衡，从而原始数据集中的类别不再会严重失衡。

使用的算法是 KNN 算法：

先算出少类样本的K个近邻
从K个近邻中间挑选出 N 个样本进行线性插值，因此构造出少类的样本
和原数据集混合，构建新的数据集

这个处理的方式在 imblearn 的 over_sampling 中的 SMOTE 中被实现，具体的查询官方文档

直接使用 SMOTE.fit()对应的数据集，能够实现缺失信息变成 1： 1的处理，改变AOC数据。

猜你喜欢

转载自blog.csdn.net/skd621/article/details/80340348

解决非平衡的数据处理方式

机器学习︱非平衡数据处理方式与评估

数据不平衡处理方式

纵表的数据处理方式

业务相关的数据处理方式

oracle大数据处理方式

数据处理方式总结

常用数据处理方式

传统的数据处理方式能否应对大数据？

机器学习中不平衡数据的处理方式

如何更好的使用VUE之数据处理方式

支付类系统数据处理和数据中台的数据处理方式有什么不同？

数据预处理-非平衡样本的处理方式(SMOTE--待补充)

（五）Tensorflow的IO处理和大规模数据处理方式

深度学习训练中关于数据处理方式--原始样本采集以及数据增广

Tushare网络取得股票列表数据和存mysql后数据处理方式不同

池和流的两种数据处理方式

echars画折线图的一种数据处理方式

java海量大文件数据处理方式

JavaScript常见缓存数据处理方式并说明特性

教你如何用python解决非平衡数据建模（附代码与数据）

不平衡数据处理-imblearn

不平衡数据处理

非平衡数据处理几个观点

数据处理三数据类别平衡（难易样本平衡）

【项目复盘-vue2.0】常见接口数据处理方式-需要修改数据结构

教你用Python解决非平衡数据问题（附代码）

普通js数据接口的请求不能使用.then方式,修改成了promise的请求以及后面使用了.then的数据处理方式,如果不改成promise请求方式就不能使用.then的处理方式

后台查询数据过慢处理方式

ML常用数据预处理方式

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)