一、概念

在机器学习中，很多学习算法经常会对学习的问题做一些关于目标函数的必要假设，称为 归纳偏置 (Inductive Bias)。

归纳 (Induction) 是自然科学中常用的两大方法之一 (归纳与演绎，Induction & Deduction)，指从一些例子中寻找共性、泛化，形成一个较通用的规则的过程。偏置 (Bias) 则是指对模型的偏好，以下展示了 4 种解释：

通俗理解：归纳偏置可以理解为，从现实生活中观察到的现象中归纳出一定的 规则 (heuristics)，然后对模型做一定的约束，从而可以起到 “模型选择” 的作用，类似贝叶斯学习中的 “先验”。

西瓜书解释：机器学习算法在学习过程中对某种类型假设的偏好，称为 归纳偏好。归纳偏好可以看作学习算法自身在一个庞大的假设空间中对假设进行选择的 启发式 或 “价值观”。

维基百科解释：如果学习器需要去预测 “其未遇到过的输入” 的结果时，则需要一些假设来 帮助它做出选择。

广义解释：归纳偏置会促使学习算法优先考虑具有某些属性的解。

例如，深度神经网络 偏好性地认为，层次化处理信息有更好效果；卷积神经网络 认为信息具有空间局部性，可用滑动卷积共享权重的方式降低参数空间；循环神经网络 则将时序信息纳入考虑，强调顺序重要性；图网络 则认为中心节点与邻居节点的相似性会更好地引导信息流动。

事实上，将 Inductive Bias 翻译成 归纳性偏好 可能更符合我们的理解和认知。

通常，模型 容量 (capacity) 很大但 Inductive Bias 匮乏 则容易 过拟合 (overfitting)，如 Transformer。

二、例子

“奥卡姆剃刀” 原理：希望相同性能下，学习到的模型复杂度更低

KNN 中假设特征空间中相邻的样本倾向于属于同一类

SVM 中假设好的分类器应该最大化类别边界距离

CNN 的 Inductive Bias 是 局部性 (Locality) 和 空间不变性 (Spatial Invariance) / 平移等效性 (Translation Equivariance)，即空间位置上的元素 (Grid Elements) 的联系/相关性近大远小，以及空间平移的不变性 (Kernel 权重共享) (但也有证伪的证伪：CNN中的图片平移不变性 - 知乎，CNN为什么丢失了平移不变性？怎么保持？ - 知乎)。

RNN 的 Inductive Bias 是 序列性 (Sequentiality) 和 时间不变性 (Time Invariance)，即序列顺序上的时间步 (Timesteps) 有联系，以及时间变换的不变性 (RNN 权重共享)。

注意力机制，也是基于从人的直觉、生活经验归纳得到的规则。