矩阵乘法的一种直观理解

常说矩阵乘法是一种变换，那么到底是一种什么样的变换呢？本文试图一步步的直观的去描述这样一种变换。
本文的矩阵乘法指的是一个方阵左乘一个列向量，即: beta= A·alpha ，其中alpha和beta都是列向量。
我们假设A是一个n阶的可逆非奇异矩阵，那么A存在n个特征向量和特征值。因此，对于任意n维向量alpha，其都可以表示成n个特征向量的线性组合，即alpha= a_1·x_1 + … + a_n·x_n，其中x_1,…, x_n为A的特征向量。因此根据特征值特征向量的定义，我们有:
A·alpha=A·(a_1·x_1 + … + a_n·x_n)= lambda_1·a_1x_1 + … + lambda_n·a_nx_n=(x_1,…, x_n)( lambda_1·a_1,…lambda_n·a_n)’。通过该等式我们可以看到，矩阵左乘一个向量实际上就是该向量在特征向量上进行分解，然后在每个分量坐标上做了一个尺度为相应特征值的伸缩变换，最后得到的一个变换后的新向量就是beta。
上述只是一种粗糙的直观，接下来我们再结合坐标变换更加具体的来理解一下矩阵乘法。对于任意一个向量，如果我们要赋予其直观意义，那么该向量必须对应着一个基，只有明确了基，向量在不同维度上的值才有意义，表示在相应基向量上的尺度，这样我们才知道该向量到底表示什么意思，而不只是几个数字。
现在假设有一个向量，其在基( a1,…, a_n)下的坐标为X，有另外一组基(b_1,…,b_n)，我们想知道该向量在(b_1,…,b_n)下的坐标Y。我们可以通过等式(b_1,…,b_n) Y=( a1,…, a_n)·X得到Y=(b_1,…,b_n)_inverse·( a1,…, a_n) X，其中(b_1,…,b_n)_inverse表示(b_1,…,b_n)的逆。这里实际上，(b_1,…,b_n)_inverse·( a1,…, a_n)就是基( a1,…, a_n)到基(b_1,…,b_n)的过渡矩阵，不同基下的坐标变换可以直接通过过渡矩阵得到，而过渡矩阵就是一组基的逆跟另一组基的乘积。
根据坐标变换，我们再去理解矩阵乘法。通过矩阵的特征值分解，我们有A=PVP_inverse，其中P由A的特征向量组成，V是其特征值构成的对角阵。则beta=A·alpha=PVP_inverse·alpha=PVP_inverse( PP_inverse·alpha)= PV(P_inverse·alpha)=PV(c_1,…,c_n)’=P(lambda_1·c_1,…,lambda_n·c_n)，根据坐标变换可以，(c_1,…, c_n)表示alpha在特征向量为基下的坐标，因为P_inverse为单位正交基到特征基的过渡矩阵。其中lambda为特征值。由beta=P(lambda_1·c_1,…,lambda_n·c_n)可知，矩阵乘法得到的向量，就是原向量在特征向量为基下的坐标进行了特征值尺度伸缩变换后，在单位正交基下的坐标向量。因为P是特征基到单位正交基的过渡矩阵，所以P(lambda_1·c_1,…,lambda_n·c_n)就是特征基下坐标为(lambda_1·c_1,…,lambda_n·c_n)的向量在单位正交基下的坐标。这和我们最开始的直观理解是一致的，只是通过坐标变换我们可以更清楚的理解这种变换。
通过本文我们知道，矩阵乘法所指的这种变换可以通过矩阵的特征向量和特征值，结合坐标变换来描述以及直观的理解。

矩阵乘法的一种直观理解

猜你喜欢