AI面试题③--过拟合和欠拟合

1. 在模型评估过程中,过拟合和欠拟合具体指什么现象

       过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是:欠拟合时候,偏差比较大;而过拟合时,偏差较小但方差较大。

2. 降低过拟合和欠拟合的方法

2.1. 降低过拟合的方法

  1. 特征 – 减少不必要的特征

    1. 根据特征的重要性,直接删除不重要的特征。
    2. 通过收集更多的数据,或者用数据增广的方法,产生更多的训练数据,从而防止模型学习不想关的特征。
  2. 模型复杂度 – 降低模型复杂度

    1. 神经网络,减少网络的层数和神经元的个数(例如Dropout)。
    2. 决策树模型中降低树的深度,进行剪枝。
  3. 正则化 - 加入正则化项,并提高正则化项的系数

    1. 对复杂模型和系数比较大的模型进行惩罚,使得算法倾向于训练出简单的模型。
  4. 多模型决策

    1. 采用 Bagging 或者 Stacking 的集成方法;将多个模型融合起来共同决策;以减少模型预测的 variance。
  5. 模型训练

    1. 训练模型时采用早停策略或采用知识蒸馏方法进行训练。
  6. 数据目标 – 平滑目标

    1. 比如用于分类任务的标签平滑方法,即在One-hot表示的Ground True标签里面,将值为1那一位上 的一小部分值减掉,均分到其他值为0的位值上。

2.2. 降低欠拟合的方法

  1. 特征 – 添加新特征

    1. 比如上下文特征,ID类特征,组合特征等等。
  2. 模型复杂度 – 增加模型复杂度

    1. 比如在线性模型中添加高次项。
    2. 在神经网络模型中增加网络层数或者神经元个数。
  3. 正则化 – 减少正则化项的系数,提高模型的学习能力。

猜你喜欢

转载自blog.csdn.net/Roaddd/article/details/113967041