深度学习的几何解释
神经网络完全由一系列张量运算组成,而这些张量运算只是输入数据的简单几何变换。因此,可以将神经网络解释为高维空间中非常复杂的几何变换,这种变换通过一系列简单步骤来实现。
机器学习的目的是为高维空间中复杂、高度折叠的数据流形(manifold)找到简洁的表示。流形是指一个连续的表面。深度学习可以将复杂的几何变换逐步分解为一系列基本变换。深度神经网络的每一层都通过变换使数据解开一点点,而许多层堆叠在一起,可以实现极其复杂的解开过程。
神经网络的“引擎”:基于梯度的优化
对于第一个模型示例,每个神经层都对输入数据进行如下变换。
output =relu(dot(input,W)+b)
在这个表达式中,w和b是张量,均为该层的属性。它们被称为该层的权重(weight)或可训练参数(trainable parameter),分别对应属性 kernel和 bias。这些权重包含模型从训练数据中学到的信息。一开始,这些权重矩阵取较小的随机值,这一步叫作随机初始化(randominitialization)。当然,w和b都是随机的,relu(dot(input,w