对线性代数的思考和理解

前言

刚刚看完了“可汗学院公开课-线性代数的本质”,对线性代数的理解上了不止一个台阶。虽然大学的时候上过这门必修课,以及本科毕业之后特意读了黄色书皮的《线性代数及其应用》这本比较有名的外国人编著的书籍,但是,直到看这门课的视频之前,还是没搞清楚线性代数的几个基本概念,比如什么是线性相关,搞不懂为什么需要解特征值和特征向量。现在心中不免有一点惋惜,为什么大学的那位教我这门课的老师不使用这种通俗直观的方式来授课呢?为什么我之前没有注意到这些优质的线上资源呢?

本文不是“线性代数的本质”这门公开课的直接搬运,而是对同一个知识点用不同语言阐述本人在看完这门课之后的思考和理解。如果读者在看完这门公开课的所有视频之后,来看这篇文章,并且能在此找到共鸣,那么一定程度上说明你理解了课程中的内容。所以,阅读本文之前,建议去看b站看一看这门公开课。

我的理解和思考

1. 为什么我们喜欢使用一个矩阵的特征向量来作为一个这个矩阵的坐标基呢?如果基向量都是特征向量,会发生什么呢?

不是所有的矩阵A都有特征向量,也不是所有的特征向量之间都是互相垂直的,对于第二点,它不影响我们使用矩阵A的特征向量作为它的基向量。基向量不一定需要相互垂直。根据特征向量的特性,特征向量总是跟某一个矩阵A对应的,所以我们说A的特征向量。所以,在一个向量v经过矩阵A的线性变化的时候(即Av),A的所有特征向量以及跟这些向量共线的向量不会发生偏离原本所在的线的变化,也就是只可能发生伸缩变化。这个特性从特征向量和特征值的公式Ax = λ \lambda x可以看出,其中x表示一个特征向量, λ \lambda 表示当前特征向量为x时的特征值。对这个公式直观的理解为:矩阵A对x的作用效果跟常量 λ \lambda 对x的作用效果相同。 λ \lambda x所发生的变化是向量的伸缩或者方向的变化,因为 λ \lambda 是常量。
如果我们将矩阵A的某些的特征向量作为基向量,假设这些基向量是正交的,也即是两两垂直的,它们形成一个新的坐标系统Z,那么坐标系统Z中的任何与坐标轴共线的向量对矩阵A的线性变化都只是伸缩变化。所以,如果基向量都是特征向量,那么,某一个向量v对矩阵A的线性变化(Av)在计算上就很容易,为特征值所组成的对角矩阵乘以v,如果这些基向量是正交的。而我们知道,一个坐标系中的所有向量的每一个维度的值都是参照坐标轴上面的刻度的,比如一个向量b的第一维度的值增加了1,相当于说是b向量第一维度的值相对于第一个坐标轴增加了一个刻度(参照物的关系),每一个坐标轴的“一个刻度”的值相对于旧的坐标系统可能是不一样的,如果使用旧的坐标系统来度量新坐标系统Z各个坐标轴一个刻度的长度,分别等于这些作为坐标基的特征向量所对应的特征值。所以我们可以这样说,新坐标系中所有的点的值都是以Z坐标系的坐标轴上的新刻度为参照物。理解了这一点之后,现在,新坐标系Z中的一个向量v[v1,v2,v3]经过矩阵A的线性变化,变化之后向量v的值等于v[v1* λ 1 \lambda 1 , v2* λ 2 \lambda 2 , v3 * λ 3 \lambda 3 ] (使用旧的坐标系统的刻度来度量)。

2. 我们使用矩阵A的特征向量作为坐标基形成新的坐标系Z2,这些向量基不一定是正交的。我们想让向量v在Z2中逆时针旋转90度,操作思路是什么呢?

现在有两种坐标系,一个是我们开始用于表示矩阵A的坐标系,它是标准坐标系,即向量基两两正交且每一维的度量为1,使用Z1表示;第二个坐标系是Z2。要注意的是,向量v和矩阵A的度量都是使用Z1的,即我们现在所有的向量和矩阵都是使用Z1来表示的。通俗来讲是使用Z1“语言”来表示的。现在我们希望矩阵A在Z2坐标系中旋转90度,也就是需要把A翻译成Z2语言,旋转90度之后,再翻译回来。为什么要翻译回来呢?因为我们现在所有的向量或者矩阵的表示都是使用Z1语言的。所以有公式( P 1 B P v P^{-1} B P v ),计算顺序是从右到左的,其中v是需要旋转的向量,P是新坐标系向量,一列表示一个维度,B表示旋转90度的线性变化矩阵, P 1 P^{-1} 表示矩阵P的逆矩阵。这个公式的理解为,先将v翻译成语言Z2,旋转90度之后,再把它翻译成我们现在当前的语言Z1。具体地,B的第一列为 [ 0 , 1 ] T [0, 1]^T ,第二列为 [ 1 0 ] T [-1, 0]^T 。总结一点,表达式 P 1 B P P^{-1}BP 暗示着一种数学上的转移作用。

3. 为什么在求解特征值的时候可以通过求解公式det(A- λ I \lambda I ) = 0,其中det表示行列式。

从几何的角度来理解行列式,表示的是各个维度所张成的空间,这里的词“张成”在二维空间中可以想象两个从原点出发的不在一条直线上的向量所形成的平行四边形的面积;在三位空间中,可以想象三个从原点出发的不在同一个平面上的向量所形成的平行四方体。在二维空间中矩阵A中的两个向量所形成的平行四边形的面积便是det(A)的值。在三维空间中,矩阵A的三个三维的向量所形成的立方体的体积便是det(A)的值。更多维度的话,以此类推。但是,可能出现的情况是,在二维空间中,A的两个向量在同一条直线上,所以A就无法张成一个平行四边形,因此它的面积为零,即det(A)==0;同理,在三维空间中,如果A的三个向量在同一个平面上,那么它们就无法张成一个立方体了,所以它的体积为0,即det(A)==0。回到问题上,根据特征值的计算公式,有(A- I λ I\lambda )x=0,因为x不能是全零的向量,为了使得这个等式成立,所以需要(A- I λ I\lambda )的值为0,也就是矩阵(A- I λ I\lambda )的各个向量所张成的空间的量为0(量,表示面积或者体积或者更高维的体积),那么这个量就是det((A- I λ I\lambda ))==0.

4. 为什么可以把一个对角矩阵A看作是:该矩阵的所有的基向量都是特征向量,矩阵的对角元是它们所属的特征值呢?

在对角矩阵中,每一列表示一个基向量。因为在以该向量基为坐标系中,所有的向量v对A的线性变换都只是让向量v的各个维度的值的大小改变。

如果有理解上的偏差,欢迎指出和讨论

发布了188 篇原创文章 · 获赞 390 · 访问量 74万+

猜你喜欢

转载自blog.csdn.net/liangyihuai/article/details/104417207