不平衡数据处理--学习笔记

  1. 不平衡数据:训练数据不是均匀分布的,出现数据集中分布,某些类型的数据较少
  2. 传统的解决方法:
    1. 基于数据:对少数群体进行过采样,对多数群体进行下采样。    
    2. 基于模型:对损失函数的重加权(re-weighting)或利用相关的学习技巧:迁移学习,元学习,两阶段训练
    3. 主要针对离散的类别标签数据:目标值属于不同的类别,并且具有严格的硬边界,不同类别之间没有重叠。
  3. 年龄是一个连续的目标值,并且在目标范围内可能会高度失衡。
  4. 在连续域的不平衡问题在线性模型和深度模型中都是存在的,在深度模型中甚至更为严重,这是因为深度学习模型的预测往往都是over-confident的,会导致这种不平衡问题被严重的放大。
  5. 深度不平衡回归问题(DIR):即从具有连续目标值的不平衡数据中学习,同时需要处理某些目标区域的潜在确实数据,并使最终模型能够泛化到整个支持所有目标值的范围上。
  6. 解决DIR问题的三个挑战如下:
    1. 对于连续的目标值(标签),不同目标值之间的硬边界不再存在,无法直接采用不平衡分类的处理方法。
    2. 连续标签本质上说明在不同的目标值之间的距离是有意义的。这些目标值直接告诉了哪些数据之间相隔更近,指导我们该如何理解这个连续区间上的数据不均衡的程度。
    3. 对于DIR,某些目标值可能根本没有数据,这为对目标值做extrapolation和interpolation提供了需求。
  7. 解决方法:
    1. 解决方法一:标签分布平滑(LDS) 
      1. 背景:对于连续标签,其经验标签密度并不能准确地反映模型所看到的不均衡。这是因为相临标签的数据样本之间是相关的,相互依赖的。
      2. 核密度估计LDS,给定连续的经验标签密度分布,LDS使用了一个对称核函数k,用经验密度分布与之卷积,得到一个kernel-smoothed的有效标签密度分布,用来直观体现临近标签的数据样本具有的信息重叠问题,通过LDS计算出的有效标签密度分布结果与误差分布的相关性明显增强。
      3. 实际使用:重加权,通过将损失函数乘以每个目标值的LDS估计标签密度的倒数来对其进行加权。
    2. 解决方法二:特征分布平滑(FDS)
      1. 如果模型预测正常且数据是均衡的,那么label相近的samples,它们对应的feature的统计信息应该也是彼此接近的。
      2. FDS是对特征空间进行分布的平滑,本质上是在临近的区间之间传递特征的统计信息。此过程的主要作用是去校准特征分布的潜在的有偏差的估计,尤其是对那些样本很少的目标值而言。

猜你喜欢

转载自blog.csdn.net/weixin_45647721/article/details/128209608