【机器学习】浅谈 归纳偏置 (Inductive Bias)

目录

一、概念

二、例子

三、意义


一、概念

        在机器学习中,很多学习算法经常会对学习的问题做一些关于目标函数的必要假设,称为 归纳偏置 (Inductive Bias)

        归纳 (Induction) 是自然科学中常用的两大方法之一 (归纳与演绎,Induction & Deduction),指从一些例子中寻找共性、泛化,形成一个较通用的规则的过程。偏置 (Bias) 则是指对模型的偏好,以下展示了 4 种解释

  • 通俗理解归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的 规则 (heuristics),然后对模型做一定的 约束,从而可以起到 “模型选择” 的作用,类似贝叶斯学习中的 “先验”。
  • 西瓜书解释:机器学习算法在学习过程中对某种类型假设的 偏好,称为 归纳偏好。归纳偏好可以看作学习算法自身在一个庞大的假设空间中对假设进行 选择 的 启发式 或 “价值观”。
  • 维基百科解释:如果学习器需要去预测 “其未遇到过的输入” 的结果时,则需要一些 假设 来 帮助它做出选择
  • 广义解释:归纳偏置会促使学习算法优先考虑具有某些属性的解。

        例如,深度神经网络 偏好性地认为,层次化处理信息有更好效果;卷积神经网络 认为信息具有空间局部性,可用滑动卷积共享权重的方式降低参数空间;循环神经网络 则将时序信息纳入考虑,强调顺序重要性;图网络 则认为中心节点与邻居节点的相似性会更好地引导信息流动。

        事实上,将 Inductive Bias 翻译成 归纳性偏好 可能更符合我们的理解和认知。

        通常,模型 容量 (capacity) 很大但 Inductive Bias 匮乏 则容易 过拟合 (overfitting),如 Transformer


二、例子

  • 奥卡姆剃刀” 原理:希望相同性能下,学习到的模型复杂度更低
  • KNN 中假设特征空间中相邻的样本倾向于属于同一类
  • SVM 中假设好的分类器应该最大化类别边界距离

  • CNN Inductive Bias局部性 (Locality)空间不变性 (Spatial Invariance) / 平移等效性 (Translation Equivariance),即空间位置上的元素 (Grid Elements) 的联系/相关性近大远小,以及空间 平移的不变性 (Kernel 权重共享) (但也有证伪的 证伪:CNN中的图片平移不变性 - 知乎CNN为什么丢失了平移不变性?怎么保持? - 知乎)。
  • RNN Inductive Bias序列性 (Sequentiality) 时间不变性 (Time Invariance),即序列顺序上的时间步 (Timesteps) 有联系,以及时间变换的不变性 (RNN 权重共享)。
  • 注意力机制,也是基于从人的直觉、生活经验归纳得到的规则。

三、意义

        归纳偏置的意义或作用是使得学习器具有了泛化的能力。

        对于上图中的 6 个离散实心点,可由很多不同的曲线拟合之。但训练的模型必然存在一定的 “偏好” 或者说 “倾向”,才能学习出模型自己认为正确的拟合规则

       显然,加了一定正则的偏置的实线 A 比虚线 B 更为简单而通用 (模型复杂度受到惩罚而更低,恰当拟合数据点,泛化性能更好)。


参考资料:

归纳偏置和选择性偏差 - 吱吱了了 - 博客园

深度学习的归纳偏置是什么? - 知乎

深度学习的归纳偏置是什么? - 知乎

深度学习的归纳偏置是什么? - 知乎

猜你喜欢

转载自blog.csdn.net/qq_39478403/article/details/121107057