AI面试题④--什么是数据不平衡,如何解决

1. 什么是数据不平衡

       数据不平衡主要指的是在有监督机器学习任务中,样本标签值的分布不均匀。这将使得模型更倾向于将结果预测为样本标签分布较多的值,从而使得少数样本的预测性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。

2. 解决方法

  1. 重新采样训练集
    1)欠采样:通过减少丰富类的大小来平衡数据集。
    2)过采样:增加稀有样本,通过使用重复,自举或合成少数类等方法。

  2. 设计使用不平衡数据集的模型
    1)在代价函数中增大对稀有类别分类错误的惩罚权重(例如Focal Loss)。

猜你喜欢

转载自blog.csdn.net/Roaddd/article/details/113967057