不平衡数据处理--学习笔记

不平衡数据：训练数据不是均匀分布的，出现数据集中分布，某些类型的数据较少
传统的解决方法：
1. 基于数据：对少数群体进行过采样，对多数群体进行下采样。
2. 基于模型：对损失函数的重加权（re-weighting）或利用相关的学习技巧：迁移学习，元学习，两阶段训练
3. 主要针对离散的类别标签数据：目标值属于不同的类别，并且具有严格的硬边界，不同类别之间没有重叠。
年龄是一个连续的目标值，并且在目标范围内可能会高度失衡。
在连续域的不平衡问题在线性模型和深度模型中都是存在的，在深度模型中甚至更为严重，这是因为深度学习模型的预测往往都是over-confident的，会导致这种不平衡问题被严重的放大。
深度不平衡回归问题（DIR）：即从具有连续目标值的不平衡数据中学习，同时需要处理某些目标区域的潜在确实数据，并使最终模型能够泛化到整个支持所有目标值的范围上。
解决DIR问题的三个挑战如下：
1. 对于连续的目标值（标签），不同目标值之间的硬边界不再存在，无法直接采用不平衡分类的处理方法。
2. 连续标签本质上说明在不同的目标值之间的距离是有意义的。这些目标值直接告诉了哪些数据之间相隔更近，指导我们该如何理解这个连续区间上的数据不均衡的程度。
3. 对于DIR，某些目标值可能根本没有数据，这为对目标值做extrapolation和interpolation提供了需求。
解决方法：
1. 解决方法一：标签分布平滑（LDS）
  1. 背景：对于连续标签，其经验标签密度并不能准确地反映模型所看到的不均衡。这是因为相临标签的数据样本之间是相关的，相互依赖的。
  2. 核密度估计LDS，给定连续的经验标签密度分布，LDS使用了一个对称核函数k，用经验密度分布与之卷积，得到一个kernel-smoothed的有效标签密度分布，用来直观体现临近标签的数据样本具有的信息重叠问题，通过LDS计算出的有效标签密度分布结果与误差分布的相关性明显增强。
  3. 实际使用：重加权，通过将损失函数乘以每个目标值的LDS估计标签密度的倒数来对其进行加权。
2. 解决方法二：特征分布平滑（FDS）
  1. 如果模型预测正常且数据是均衡的，那么label相近的samples，它们对应的feature的统计信息应该也是彼此接近的。
  2. FDS是对特征空间进行分布的平滑，本质上是在临近的区间之间传递特征的统计信息。此过程的主要作用是去校准特征分布的潜在的有偏差的估计，尤其是对那些样本很少的目标值而言。

不平衡数据处理--学习笔记

猜你喜欢