给定一个只含有一层隐藏层的感知机模型,给定一个小批量样本
X∈Rn×d,其批量大小为n,输入个数为d。感知机隐藏单元个数为h。记隐藏层的输出(也称为隐藏层变量或隐藏变量)为H,有
H∈Rn×h。因为隐藏层和输出层均是全连接层,可以设隐藏层的权重参数和偏差参数分别为
Wh∈Rd×h和
bh∈R1×h,输出层的权重和偏差参数分别为
Wo∈Rh×q和
bo∈R1×q。
先来看一种含单隐藏层的多层感知机的设计。其输出
O∈Rn×q的计算为:
H=XWh+bh
O=HWo+bo也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来,可以得到
O=(XWh+bh)Wo+bo=XWhWo+bhWo+bo从联立后的式子可以看出,虽然神经网络引入了隐藏层,却依然等价于一个单层神经网络,其中输出层的权重参数为
WhWo,偏差参数为
bhWo+bo。
不难发现,即使再添加更多的隐藏层,以上设计依然只能与仅含输出层的单层神经网络等价。
上述问题的根源在于全连接层只是对数据做仿射变换,而多个仿射变换的叠加仍然是一个仿射变换。解决问题的一个方法是引入非线性变换,例如对隐藏变脸使用按元素运算的非线性函数进行变换,然后再作为下一个全连接层的输入。这个非线性函数被称为激活函数。
常用的激活函数有ReLU函数,sigmoid函数和tanh函数。