【数学】3b1b线性代数的本质——线性变换视角下的线性代数

来源:3b1b翻译版

1、如何理解线性代数?

什么是线性变换?

  • 函数研究的是,输入一个数,经过函数运算之后,产出一个数。
  • 线性代数就是:输入一段直线,经过加工之后,产出一段直线
  • 这里的加工就是线性变化。 输入的叫向量,加工的工具是矩阵,输出的是向量。

数值运算与几何直观

  • 几何水平上的理解能让你判断出解决特定问题需要用什么样的工具,感受到它们为什么有用,以及如何解读最终结果。
  • 数值水平上的理解则能让你顺利应用这些工具。
  • 假如你在学习线性代数时,并没有几何上的直观理解作为坚实基础,问题可能暂时不会浮出水面,但是当你在你的研究领域中继续钻研时,它就会显露出来。在这里插入图片描述
    在这里插入图片描述

目录:

  • P1-00-序言
    P2-01-向量究竟是什么
    P3-02-线性组合.张成的空间与基
    P4-03-矩阵与线性变换
    P5-04-矩阵乘法与线性变换复合的联系
    P6-04-附注1 三维空间的线性变换
    P7-05-行列式
    P8-06-逆矩阵、列空间、秩与零空间
    P9-06-附注2 非方阵 不同维度空间之间的线性变换
    P10-07-点积与对偶性
    P11-08-01 叉积的标准介绍
    P12-08-02-以线性变换的眼光看叉积
    P13-09-基变换
    P14-10-特征向量与特征值
    P15-11-抽象向量空间
    在这里插入图片描述

2、向量与线性变换

向量在不同专业的人眼里有不同的看法:

  • 在物理学的学生眼里,向量是一个空间中的箭头,决定它的是这个箭头的长短和方向,它的位置可以是任意的。
  • 在计算机的学生眼里,向量是一个 “列表”(即向量的代数表达),该列表可以有不同的行和列,同时每一个位置的值对应的物理意义都是一定的,不能交换位置。
  • 在数学家眼里,向量可以是以上两种中任何一种表达(也可以是其他很多事物的表达),这两者其实是相互关联的。
  • 后面的讲解都是把向量看作一个坐标系中,以原点为起点的箭头,这个箭头与一对数(一个“列表”,向量坐标)唯一对应。
    通常是竖着写的向量,在二维坐标系中,列表(向量)中的第一个数代表向量箭头终点在x轴方向上的偏移,第二个数代表向量箭头终点在y轴方向上的偏移。这对数的值同时也是该向量箭头终点的坐标。

向量有两个重要的运算:

  • 向量加法和向量数乘。后续的内容 基本上都是围绕这两种运算展开的。
  • 向量加法就是
    把第二个向量的起点移动到第一个向量的终点,然后由第一个向量的起点(原点)指向第二个向量的终点,构成一个新的向量。
    代数的表达就是向量对应位置的数值直接相加
  • 向量的数乘
    在几何方面就是对箭头长度的缩放(scaling),负号代表方向取反。
    在代数方面就是乘数(标量scalars)与向量对应位置的数值相乘的结果

向量的线性组合

  • 首先谈谈线性组合,什么是线性组合,这里我们定义两个向量数乘后的向量和即为线性组合,形如 ai +bj的式子(三维形式则再加一个向量k,更高维的以此类推)。
  • 然后我们看一个向量的代数表达,这时我们可以将两个数的值(x和y)看作两个向量(x轴方向上的单位向量i和y轴方向上的单位向量j)的缩放(数乘的值),那么这个向量就可以被表示为xi +yj。

向量张成的空间

  • 我们将可以将i和j称为一对基向量二维平面中的任意一个向量都能表示为这两个基向量的线性组合
  • 同时我们将能够由基向量的线性组合而得到的向量的集合称为这一对向量所张成的空间(或者说是向量空间)

基向量的产生(线性相关)

  • 同时,一个平面的基向量并不是唯一的一对,它可以有多对不同的组合(只要他们不共线/至少一个为零向量)。因为共线/包含零向量的一对向量他们的线性组合并不是整个平面,而是一条线或者一个点。
  • 在学线性代数的时候老师讲过一个概念:线性相关和线性无关
  • 当一组向量中,存在某一个向量能被其他向量线性表示(即能被表示为其他向量的线性组合),那么我们就说这一组向量线性相关。换一种说法就是这个向量对这一组其他向量张成的空间没有任何贡献,这个能被表示的向量是多余的,因为它能被分解为其他的向量的线性组合。上一段中所说的共线/包含零向量的情况就是线性相关的情况。
  • 反之,若一组向量互相都不能线性表示,则成为线性无关(向量组)。
    再回到开头 ,什么样的向量可以称为基向量呢?在了解线性相关和线性无关后,我们可以说,一个向量空间的一组基是张成该空间的一组线性无关的向量集

3、矩阵与线性变换

什么是变换

  • 就是给定一个输入,它会给出一个变换后的输出,这与函数的定义几乎一致
  • 线性变换的要求:
    所有的直线变换后仍是直线
    原点保持不变
  • 正是由于这两个特性,当一个向量以及能表示它的基向量都经历变换这个过程之后,它们之间的线性关系保持不变,即该向量被基向量表示的数乘系数不变。
  • 于是,我们只需要知道一个空间的一组基向量变换后的向量值,就能求得该空间中其他任一向量变换后的值

矩阵的用处是什么

  • 我们将一组变换后的基向量(2×1)按列组合起来(以二维平面中的基向量为例),即构成了一个2×2的矩阵。
  • 这个矩阵就可以成为描述这个变换的工具,我们将变换的过程表示为该矩阵与一个特定向量的乘积(矩阵左乘向量),得到的结果就是该向量变换后的坐标。如下图:
    在这里插入图片描述
  • 所以,任何一个矩阵都可以看做一个特定的线性变换,而矩阵与向量的乘积,则表示线性变换的过程,其结果表示向量变换后的结果。

矩阵是怎么对直线进行加工的?

  • 通过函数表达式y=5x+9我们可以一目了然地知道,输入的自变量x是怎样一步步被加工,最后输出因变量y的。
  • 假如输入的直线为[1,2]。插一句,向量[1,2]的全称其实是1i+2j,i和j叫做基向量。意思是说,我们目前所写出来的向量,是以这两个向量作为基本原料,拼凑组合出来的。
  • 那么这个矩阵所代表的加工过程就是,**把基向量i,换成矩阵中的第一列,把基向量j换成矩阵中的第二列。**然后再以新的基向量为原料,重新利用[1,2]拼凑一个新的向量。用新的基向量拼凑出来的新向量就是输出。

矩阵乘法与线性变换复合

  • 由上一节可知,一个矩阵对应一种线性变换,一个矩阵与一个向量相乘则对应对该向量进行一种线性变换,结果得到变换后的向量。如果再次用另一个矩阵与该向量相乘,则又会得到原向量进行第二次变换后的向量。如果我们不写中间第一次变换后的结果,把两次变换连起来写,那么就得到两个矩阵相乘的形式(如下图等式左侧)。
  • 我们可以找到直接用一个变换就能使原向量变为最终向量的变换(复合矩阵),于是有理由相信,左侧的两个矩阵相乘的结果就是复合矩阵(这一点也很容易由我们线性代数课上学的计算法则证明,或者通过变换的几何概念也很容易证明),于是我们可以得到矩阵相乘的结合律了:(AB)C=A(BC)。这一个性质也很容易由直觉得到,因为括号并不影响进行线性变换的顺序。
    在这里插入图片描述

—————————————2个特殊线性变换的补充————————————

补充1:非方阵是什么?

  • 我们之前讨论的都是方阵,即向量数与向量维度相等,当两者不等时则称非方阵。
  • 若有一个矩阵是3×2,我们可以将它看成是一个将二维平面映射到三维空间中的一个二维平面的变换,听起来有点绕,意思就是把单纯的一个平面映射为空间中的一个平面,使它的基向量变为有三个维度的向量
  • 若一个矩阵是1×2,则可以看成是将一个二维平面映射到一个一维的线上的变换,即减小了基向量一个维度。

补充2:什么叫单位矩阵?

  • 矩阵能够对向量进行加工,产生一个新的向量。但有一种矩阵比较特殊,无论给它输入什么样的向量,加工后产生的向量都与原来的相同,这种矩阵叫单位矩阵。

4、行列式与线性变换

行列式与线性变换

  • 矩阵对向量进行加工,行列式能够描述这种加工作用的强弱。
  • 矩阵对向量加工是通过改变基向量来实现的。以二维为例,默认的基向量张成的面积为1,经过矩阵变换之后形成的新的基向量张成的面积变为了S,那么这个矩阵的行列式就为S。
  • 有时候,矩阵的行列式为0,说明新的基向量张成的面积为0,说明新的基向量发生了重合
    有时候,矩阵的行列式为负数,说明线性空间发生了翻转

行列式(det)的几何意义与证明

  • 行列式几何意义就是一块区域在经过该矩阵所表示的线性变换后,得到的新的区域的面积与原区域面积的比例(也可以看作单位正方形经过变换后的平行四边形的面积,即该矩阵的两个向量所构成平行四边形的面积)。这里的面积是在二维平面的条件下讨论的,对于三维空间来说则是体积。
  • 具体的证明可以通过几何画图来证明:
    在这里插入图片描述
  • 有了这个结论,我们很容易就知道,为什么行列式为0的矩阵中的向量组一定线性相关了。
    因为变换后的两个向量是共线/至少有一个为零向量的(二维平面范围内)。
  • 还有一点需要注意的是,行列式是有负值的,在二维平面中,负号所代表的意义是平面的翻转(这一点与通量很类似);在三维空间中,负号所代表的是左手系和右手系之间的转换。但是行列式的绝对值的意义还是变换后面积/体积的缩放比例。

5、应用——逆矩阵求解线性方程组

矩阵的一个用处是用来解线性方程组的

  • 形如:Ax=v ,其中变换矩阵A和变换后的向量v 已知,我们需要求变换前的向量x。
  • 由几何意义可知,只要该变换不是将原向量空间压缩成更低维度的向量空间,即det(A)不等于0,那么我们就能唯一确定一个逆变换A^(−1)使得v能还原为x,该方程就有唯一解,否则(det(A)=0)为无穷解(或无解)。

什么是逆矩阵,用逆矩阵求解线性方程组?

  • A^(−1)和A的乘积为单位矩阵E,于是可得x =A^(−1)v,即求得了 x。
  • 矩阵对向量具有加工作用,两个矩阵相乘,则表示的是两种加工作用的叠加。也就是说:
    向量经过矩阵1和矩阵2的加工之后,又变成了原来的自己。进一步说明,矩阵1和矩阵2对于向量的加工作用刚好相反。那么就说矩阵1和矩阵2互为逆矩阵。
  • PS:行列式如果为0,表明矩阵在在对向量变换的过程中,将向量空间压缩到了一个更低的维度上。向量降维后,将无法再还原回原来的样子。所以行列式为0的矩阵没有逆矩阵

列空间和秩决定了线性方程组的解的个数

  • 列空间就是矩阵的列向量所张成的空间
  • 秩的概念就是矩阵所表示的线性变换后的空间维度,或者说是列空间的维度。例如一个3×3的矩阵所表示的线性变换会把任何三维向量压缩到一个二维平面里,那么就说这个矩阵的秩为2,同时这个矩阵的列向量所张成的空间为一个二维平面,同时该矩阵的行列式为0。
  • 矩阵可以将一个向量进行加工,变成另外一个向量。
    比如一个3阶矩阵,可以对很多三维向量进行加工,变成很多新的三维向量。
    有时候,所有的这些新的三维向量,最终都落在一条直线上,即1维。
    有时候,所有的新的三维向量最终都落在一个二维平面上,即2维。
    有时候,所有的新的三维向量最终都落在三维空间上,即3维。
    以上情况分别对应于秩为1,2,3。
  • 总之,秩就是描述这个矩阵会不会将输入的向量空间降维。如果没有降维,这种情况称为满秩
  • 如果一个经过矩阵变换前后的维度没有改变,我们把这种情况称为满秩。
    满秩矩阵的齐次方程的解(Ax=0)只有一个(只有0向量能变换为0向量),
    一个非满秩矩阵的变换的齐次方程的解就有无穷个了,因为有许多向量可以经过变换变为0向量,这些经过变换后落到零点的向量的集合被称为零空间/核。

6、向量运算(点积,叉积,基变换)与线性变换

点积与对偶性

  • 点积的标准计算方式就是按照向量中对应位置的坐标相乘再相加
    点积的几何意义是点积的大小等于一个向量x在另一个向量y上的投影的长度与y的长度的乘积,点积的正负号取决于x投影后的向量与y的方向是否相反,若相反,则为负,否则为正。
    这个投影的过程可以交换,即也可看作y向x的投影。
  • 现假设一个向量单位u,横纵坐标分别为ux和uy,再假设一个变换为把其他向量都投影到该向量所在直线上,那么这个变换的矩阵是什么呢?跟据对偶性可知,该变换矩阵就是[ux,uy],所以要求其他向量经过改变换得到的值时,直接用[ux,uy]与所需变化向量v相乘即可,由线性代数所学的运算法则可得结果是一个数,即投影后在那条直线上的长度。这个相乘的过程与我们的点积定义形式惊人的一致,于是,如果我们把v与u的点积的计算过程就可以看作求v向u所在直线投影与u的长度相乘的过程(包括符号)。
    在这里插入图片描述
  • 从数学式子来看,如果我们相求两个列向量u和v的的点积u x v,我们可以把前者转换成一个线性变换的矩阵与后者相乘,那么式子的几何意义就变成了求v向u投影与u的大小的积。
  • 点积可以看做一个向量向另一个向量投影,其计算过程中对应的操作其实可以看做是将其向量向以另一个向量为坐标轴的一维坐标的投影操作。而且由于对偶性,其变换矩阵恰好可以写作是另一个向量转为矩阵的形式作线性变换,其数值恰好相同(由于对偶性)
  • 对偶性(duality)→自然而又出乎意料的对应关系 多维空间到数轴的线性变换都与唯一一个向量对应。 此向量称之为这个变换的对偶向量,使得到数轴线性变换与点乘该向量效果一致。

叉积

  • 叉乘结果 (新向量)的值(长度)是向量形成平行四边形的面积(行列式的意义)。正负用两向量左右关系判断,第一个向量在第二个向量右边则为正。
  • 叉积的结果还是一个向量,叉积的标准计算方法如下图:
    在这里插入图片描述
  • 结果向量的大小是两个相乘向量所形成的平行四边形的面积,它的方向由右手法则确定——which means 叉积不满足交换律。
  • 几何上,差积的结果向量与任何一个向量相乘的结果就相当于此向量与差积两原向量求行列式结果一致。因为p的长度为vw的面积,而且行列式可以看做求平行六面体体积,底面积乘以高(此高可以由p点积向量计算,因为可以看做是向p做投影,而p的方向恰好垂直于平面,最后其结果是一致的,因此此结果p可以看做事三维空间向一维坐标轴的变换,p也可以看做是此变换的对偶向量。(这里我写得很乱,如果像搞明白还是去看视频第八集,视频中很多动画和解说更易理解)
  • 简而言之,求差积向量的几何意义就是找到一个向量,使得此向量与任何向量做点积运算都与此向量与原差积运算的两个向量构成的行列式结果一直。其具体几何意义在于计算任意向量与p点积为投影后乘p的长度,行列式为差积向量构成平行四边形面积乘任意向量垂直于此平面的分量计算体积,而恰巧此两处都有着任意向量对p向量的投影长度,省略之后p向量长度即为平行四边形面积,p方向即为垂直于此平面,p即为差积的结果。

基变换

  • 对于基向量选取不同,坐标轴方向与网格间距不同;但是对于原点的定义是一致的。
    对一些不好计算线性变换的坐标系下的变换,可以将其先变换到标准空间,计算变换后再逆变换回原空间中
  • 本节的基变换讲的是,如何在两个不同的坐标系(不同的基向量)之间进行坐标的转换,换一种说法就是,如和从两个坐标系的角度来看同一个向量
  • 这里有个前提是,我们把向量看作一组对基向量数乘的数,同时,我们也必须有一个可供这两个坐标系参考的标准坐标系(一般都是取笛卡尔正交坐标系)。

7、特征向量与特征值

特征向量与特征值

  • 矩阵能够对向量进行加工,变成一个新的向量。
    有时候会出现这种情况:对于某一个矩阵,输入一个向量,经过矩阵的加工后,新生成的向量与原来的向量共线。也就是说这个矩阵对这个特定的向量的加工过程中没有改变其方向
    那么,这个不会被改变方向的向量叫做这个矩阵的特征向量
    虽然不会被改变方向,但是改变了大小,新的向量长度是原来的向量的长度的 [公式] 倍,这个 [公式] 叫做特征向量的特征值。
  • 书上特征值与特征向量的公式如下:
    Av =λv,其中v称为A的特征向量,λ称为特征值。
  • 特征向量:在变换前后不改变方向的向量
    特征值:特征向量变换前后拉伸或压缩比例因子(特征值为负表示变换前后方向反向,但是直线没有变化)

计算矩阵的幂

  • 特征基:一组基向量(同时也是特征向量)构成的集合称为一组特征基
  • 矩阵的幂计算不方便时候就可以将其转换到特征基上计算幂,然后转换回原本的基上。(特征基上矩阵是对角矩阵,求幂运算简单)

8、多项式与抽象向量空间(二次型)

什么是二次型?与线性代数有什么关系

  • n个变量的二次多项式称为二次型
  • 即在一个多项式中,未知数的个数为任意多个,但每一项的次数都为2的多项式。

多项式与抽象向量空间

  • 回到第01节中的一个问题,在数学家眼里,什么是向量呢?事实上,向量这个概念可以是任何一组事物的几何,比如,空间中的一组箭头、计算机中的一组数、一组函数等。
  • 其中,一个多项式函数也可以看作一个向量,所有的多项式函数就构成了一个向量空间。But,为什么?如果一个事物满足向量的相加与数乘的性质,那么就可以被看作向量。
  • 多项式函数正好满足。
    任何一个变换,满足线性的性质,就能被看作线性变换,线性性质包括可加性和齐次性(如下图)。
    在这里插入图片描述
  • 以函数为向量(空间),那么变换就是把一个函数变成另一个函数。
    例如,微积分里的微分和积分都是线性变换,因此,他们都可以用矩阵的形式表示出来。我们也把这些变换叫做线性算子
  • 如何一个事物,它想能应用我们之前在线性代数中所推出的任何结论,它满足以下八条公理:
    (最后的意思是,抽象向量空间可以具现化为任何空间,只要那个空间满足上述公理即可)
    回答了什么是向量的问题:只要向量相加和乘法的概念满足以上规定,任何东西都可以是向量。
    向量有很多种体现,数学家将其抽象为向量空间这样无形的概念。
    在这里插入图片描述
  • 求导是线性运算
    抽象向量空间意味着将基向量改为其他形式的表示,例如基函数,也可以通过向量的形式表示其他类型的信息。例如多项式可以由基函数(1,x,x^2……)表示为一个向量。而且此时可以将求导操作抽象为一个矩阵,矩阵乘向量即为求导数(这个矩阵也称之为算子)
    在这里插入图片描述

9、应用——克莱姆法则求解线性方程组

克莱姆法则

  • 就是通过计算两向量所夹面积(或三向量所夹体积),根据变换前后面积变化比例为行列式值,计算出变化后三个向量所夹体积,以及变化前的单位体积的变化比例,可以计算出对应位置下变化前的值,通过每一个坐标轴计算一次就可以获得变换前的向量,也即是线性方程组的解向量。
  • 点积结果在变换前后大概率是会改变的,不变的情况下这种变换称之为正交变换(如旋转矩阵),正交变换下基向量仍为单位长度且互相垂直。

猜你喜欢

转载自blog.csdn.net/qq_33957603/article/details/129821517