平衡训练集——The balanced training set

一、定义

  • 平衡训练集是一种经过特殊处理的数据集合,用于训练机器学习模型,特别是在处理分类任务时。
  • 在原始数据集中,不同类别的样本数量可能存在很大差异,这种不平衡可能导致模型在训练过程中偏向于样本数量较多的类别,而对样本较少的类别学习不足。
  • 平衡训练集通过各种方法来调整不同类别样本的比例,使得每个类别在训练过程中都能得到相对公平的对待。

二、在 AudioSet 中的情况

  • 在 AudioSet 数据集中,平衡训练集包含 2.2 万个样本(完整数据集包含200万个样本)。这个集合是从原始的大规模音频数据中选取出来的,其目的是在训练音频分类模型(如文中提到的音频频谱变换 AST 模型)时,避免模型过度关注某些常见的音频类别而忽视其他较少见的音频类别。
  • 例如,假设在完整的 AudioSet 数据集中,“交通噪音” 类别的音频样本有很多,而 “鸟鸣声” 类别的样本相对较少。如果直接使用完整数据集进行训练,模型可能会对 “交通噪音” 类别学习得很好,但对 “鸟鸣声” 类别学习得不够充分。通过平衡训练集,可以确保这两个类别(以及其他所有类别)的样本在训练过程中有比较合适的比例,这样模型就能更均衡地学习不同音频类别对应的特征,从而提高对各类别音频事件分类的准确性。

三、构建平衡训练集的方法

  • 过采样少数类:增加少数类别的样本数量,使它们与多数类别在数量上更接近。比如,对于数量较少的音频类别,可以通过复制这些类别的音频样本或者使用一些数据生成技术(如 SMOTE 算法,通过在特征空间中合成新的少数类样本)来增加其数量。
  • 欠采样多数类:减少多数类别样本的数量,使各类别样本数量比例更加平衡。不过这种方法可能会丢失多数类别中的一些有用信息。
  • 调整采样权重:在训练过程中,根据类别样本数量的比例来调整每个类别被采样的概率。例如,对于样本数量较少的音频类别,增加其被选中用于训练的概率,而对于样本数量较多的类别,降低其采样概率。