深度学习总结(4)

张量积

张量积(tensor product)或点积(dot product)是最常见且最有用的张量运算之一。注意,不要将其与逐元素乘积(*运算符)弄混。在NumPy中,使用np.dot函数来实现张量积,因为张量积的数学符号通常是一个点(dot)​。

x = np.random.random((32,))
y = np.random.random((32,))
z = np.dot(x, y)

数学符号中的点(•)表示点积运算。

z = x•y

从数学角度来看,点积运算做了什么?我们首先看一下两个向量x和y的点积。计算过程如下。

def naive_vector_dot(x, y):
    assert len(x.shape) == 1---- (本行及以下1) x和y都是NumPy向量
    assert len(y.shape) == 1
    assert x.shape[0] == y.shape[0]
    z = 0.
    for i in range(x.shape[0]):
        z += x[i] * y[i]
    return z

可以看到,两个向量的点积是一个标量,而且只有元素个数相同的向量才能进行点积运算。你还可以对一个矩阵x和一个向量y做点积运算,其返回值是一个向量,其中每个元素是y和x每一行的点积。实现过程如下。

def naive_matrix_vector_dot(x, y):
    assert len(x.shape) == 2---- x是一个NumPy矩阵
    assert len(y.shape) == 1---- y是一个NumPy向量
    assert x.shape[1] == y.shape[0]---- x的第1维与y的第0维必须大小相同!
    z = np.zeros(x.shape[0])
    for i in range(x.shape[0]):----这个运算返回一个零向量,其形状与x.shape[0]相同
        for j in range(x.shape[1]):
            z[i] += x[i, j] * y[j]
    return z

你还可以重复使用前面写过的代码,从中可以看出矩阵−向量点积与向量−向量点积之间的关系。

def naive_matrix_vector_dot(x, y):
    z = np.zeros(x.shape[0])
    for i in range(x.shape[0]):
        z[i] = naive_vector_dot(x[i, :], y)
    return z

注意,只要两个张量中有一个的ndim大于1,dot运算就不再是对称(symmetric)的。也就是说,dot(x, y)不等于dot(y, x)。当然,点积可以推广到具有任意轴数的张量。最常见的应用可能是两个矩阵的点积。对于矩阵x和y,当且仅当x.shape[1] == y.shape[0]时,你才可以计算它们的点积(dot(x, y))​。点积结果是一个形状为(x.shape[0], y.shape[1])的矩阵,其元素是x的行与y的列之间的向量点积。简单实现如下

def naive_matrix_dot(x, y):
    assert len(x.shape) == 2---- (本行及以下1) x和y都是NumPy矩阵
    assert len(y.shape) == 2
    assert x.shape[1] == y.shape[0]---- x的第1维与y的第0维必须大小相同!
    z = np.zeros((x.shape[0], y.shape[1]))----这个运算返回一个特定形状的零矩阵
    for i in range(x.shape[0]):----遍历x的所有行……
        for j in range(y.shape[1]):----……然后遍历y的所有列
            row_x = x[i, :]
            column_y = y[:, j]
            z[i, j] = naive_vector_dot(row_x, column_y)
    return z

为了便于理解点积的形状匹配,可以将输入张量和输出张量像图2-5中那样排列,利用可视化来帮助理解。在图2-5中,x、y和z都用矩形表示(元素按矩形排列)​。由于x的行和y的列必须具有相同的元素个数,因此x的宽度一定等于y的高度。如果你打算开发新的机器学习算法,可能经常要画这种图。

在这里插入图片描述

更一般地说,可以对更高阶的张量做点积运算,只要其形状匹配遵循与前面2阶张量相同的原则。

(a, b, c, d)(d,)(a, b, c)
(a, b, c, d)(d, e)(a, b, c, e)

以此类推。

张量变形

另一个需要了解的张量运算是张量变形(tensor reshaping)​。虽然前面第一个神经网络例子的Dense层中没有用到它,但我们将数据输入神经网络之前,在预处理数据时用到了这种运算。

train_images = train_images.reshape((60000, 28 * 28))

张量变形是指重新排列张量的行和列,以得到想要的形状。变形后,张量的元素个数与初始张量相同。下面这个简单的例子可以帮助我们理解张量变形。

>>> x = np.array([[0., 1.],
                  [2., 3.],
                  [4., 5.]])
>>> x.shape
(3, 2)
>>> x = x.reshape((6, 1))
>>> x
array([[ 0.],
       [ 1.],
       [ 2.],
       [ 3.],
       [ 4.],
       [ 5.]])
>>> x = x.reshape((2, 3))
>>> x
array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.]])

常见的一种特殊的张量变形是转置(transpose)​。矩阵转置是指将矩阵的行和列互换,即把x[i, :]变为x[:, i]。

>>> x = np.zeros((300, 20))----创建一个形状为(300, 20)的零矩阵
>>> x = np.transpose(x)
>>> x.shape
(20, 300)

张量运算的几何解释

对于张量运算所操作的张量,其元素可看作某个几何空间中的点的坐标,因此所有的张量运算都有几何解释。以加法为例,假设有这样一个向量:

A = [0.5, 1]

它是二维空间中的一个点(见图2-6)​。常见的做法是将向量描绘成由原点指向这个点的箭头,如图2-7所示。

在这里插入图片描述

假设有另外一个点:B = [1, 0.25],我们将它与前面的A相加。从几何角度来看,这相当于将两个向量的箭头连在一起,得到的位置表示两个向量之和对应的向量(见图2-8)​。如你所见,将向量B与向量A相加,相当于将A点复制到一个新位置,这个新位置相对于A点初始位置的距离和方向由向量B决定。如果将相同的向量加法应用于平面上的一组点(一个物体)​,就会在新位置上创建整个物体的副本(见图2-9)​。因此,张量加法表示将物体沿着某个方向平移一段距离(移动物体,但不使其变形)​。

在这里插入图片描述

一般来说,平移、旋转、缩放、倾斜等基本的几何操作都可以表示为张量运算。下面看几个例子。平移(translation)​。如前所示,在一个点上加一个向量,会使这个点在某个方向上移动一段距离。如果将操作应用于一组点(比如一个二维物体)​,就叫作“平移”​(见图2-9)​。旋转(rotation)​。要将一个二维向量逆时针旋转theta角(见图2-10)​,可以通过与一个2×2矩阵做点积运算来实现。这个矩阵为R = [​[cos(theta), -sin(theta)],[sin(theta), cos(theta)]​]。
在这里插入图片描述

缩放(scaling)​。要将图像在垂直方向和水平方向进行缩放(见图2-11)​,可以通过与一个2×2矩阵做点积运算来实现。这个矩阵为S=[​[horizontal_factor, 0], [0,vertical_factor]​]。​(注意,这样的矩阵叫作“对角线矩阵”​,因为它只有在从左上到右下的“对角线”上的元素不为零。​)线性变换(linear transform)​。与任意矩阵做点积运算,都可以实现一次线性变换。注意,前面所说的缩放和旋转,都属于线性变换。仿射变换(affine transform)​。仿射变换(见图2-12)是一次线性变换(通过与某个矩阵做点积运算来实现)与一次平移(通过向量加法来实现)的组合。你可能已经发现,这正是Dense层所实现的y = W•x + b运算!一个没有激活函数的Dense层就是一个仿射层。

在这里插入图片描述

带有relu激活函数的Dense层。关于仿射变换的一个重要结论是,重复应用多次仿射变换,仍相当于一次仿射变换(所以可以在一开始就应用这个仿射变换)​。我们用两个仿射变换来试一下:affine2(affine1(x)) = W2•(W1•x + b1) + b2 = (W2•W1)•x +(W2•b1 + b2)。这相当于是一次仿射变换,其线性变换部分是矩阵W2•W1,平移部分是向量W2•b1 + b2。因此,一个完全由没有激活函数的Dense层组成的多层神经网络等同于一个Dense层。这种“深度”神经网络其实就是一个线性模型!这就是需要用到激活函数的原因,比如relu(其效果见图2-13)​。由于激活函数的存在,一连串Dense层可以实现非常复杂的非线性几何变换,从而为深度神经网络提供非常丰富的假设空间。第3章将更详细地介绍这一点。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_52370850/article/details/147105447
今日推荐