笔记:宾大《Algebra, Topology, Differential Calculus, and Optimization Theory For CS and ML》——第三章第六节

3.6 矩阵

下面,我们将精确地定义矩阵并介绍一些关于矩阵的运算。矩阵构成了一个向量空间,它具有结合律,但非交换律的乘法运算。

定义3.12 如果 K = R K=\R 或者 K = C K =C ,一个在 K K 上的 m × n m \times n 矩阵maxtrix 是由 K K 上的标量簇 ( a i j ) 1 i m , 1 j n (a_{ij})_{1 \le i \le m,1 \le j \le n} 组成的,其可以表达为如下形式:
( a 11 a 12 a 1 n a 21 a 22 a 2 n a m 1 a m 2 a m n ) \left ( \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right )
特别地,如果 m = 1 m=1 ,那么其为行向量(row vector),可以表达为:
a 11 . . . a 1 n (a_{11}...a_{1n})
如果 n = 1 n=1 ,那么其为列向量(column vector),可以表达为:
( a 11 a 21 a m 1 ) \left ( \begin{matrix} a_{11}\\ a_{21} \\ \vdots \\ a_{m1} \end{matrix} \right )
对于以上两种特殊情况,我们通常省略常量索引 1 1 (对于行是第一个索引,对于列是第二个索引)。整个的 m × n m \times n 矩阵,我们简记为 M m , n ( K ) M_{m,n}(K) 或者 M m , n M_{m,n} 。特殊地,我们将 n × n n \times n 的矩阵称为维度为 n n 方阵 (square matrix od dimension n n ),我们将其表示为 M n ( K ) M_n(K) 或者 M n M_n

下面我们定义更多矩阵的运算:

定义3.13

对于两个 m × n m \times n 的矩阵 A = ( a i j ) A = (a_{ij}) B = ( b i j ) B =(b_{ij}) ,我们定义他们的加法(sum)如下,即 A + B = C = ( c i j ) A+B = C=(c_{ij})
( a 11 a 12 a 1 n a 21 a 22 a 2 n a m 1 a m 2 a m n ) + ( b 11 b 12 b 1 n b 21 b 22 b 2 n b m 1 b m 2 b m n ) = ( a 11 + b 11 a 12 + b 12 a 1 n + b 1 n a 21 + b 21 a 22 + b 22 a 2 n + b 2 n a m 1 + b m 1 a m 2 + b m 2 a m n + b m n ) \left ( \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right )+\left ( \begin{matrix} b_{11} & b_{12} & \cdots & b_{1n}\\ b_{21} & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \cdots & b_{mn} \end{matrix} \right )=\left ( \begin{matrix} a_{11}+b_{11} & a_{12}+b_{12} & \cdots & a_{1n}+b_{1n}\\ a_{21}+b_{21} & a_{22}+b_{22} & \cdots & a_{2n}+b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1}+b_{m1} & a_{m2}+b_{m2} & \cdots & a_{mn}+b_{mn} \end{matrix} \right )
对于任意的矩阵 A = ( a i j ) A=(a_{ij}) 和给定的标量 λ K \lambda \in K ,我们定义矩阵的标量乘法 λ A \lambda A 如下,即 c i j = λ a i j c_{ij} = \lambda a_{ij} :
λ ( a 11 a 12 a 1 n a 21 a 22 a 2 n a m 1 a m 2 a m n ) = ( λ a 11 λ a 12 λ a 1 n λ a 21 λ a 22 λ a 2 n λ a m 1 λ a m 2 λ a m n ) \lambda\left ( \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right )=\left ( \begin{matrix} \lambda a_{11} & \lambda a_{12} & \cdots & \lambda a_{1n}\\ \lambda a_{21} & \lambda a_{22} & \cdots & \lambda a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ \lambda a_{m1} & \lambda a_{m2} & \cdots &\lambda a_{mn} \end{matrix} \right )
对于 m × n m \times n 的矩阵 A = ( a i k ) A=(a_{ik}) 以及 n × p n \times p 的矩阵 B = ( b k j ) B = (b_{kj}) ,我们定义矩阵的乘法(product)如下,即 A B = C m × p = ( c i j ) AB=C_{m \times p}=(c_{ij})
c i j = k = 1 n a i k b k j c_{ij} = \sum_{k=1}^n a_{ik}b_{kj}
写成矩阵形式如下:
( a 11 a 12 a 1 n a 21 a 22 a 2 n a m 1 a m 2 a m n ) ( b 11 b 12 b 1 n b 21 b 22 b 2 n b m 1 b m 2 b m n ) = ( c 11 c 12 c 1 n c 21 c 22 c 2 n c m 1 c m 2 c m n ) \left ( \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{matrix} \right )\left ( \begin{matrix} b_{11} & b_{12} & \cdots & b_{1n}\\ b_{21} & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ b_{m1} & b_{m2} & \cdots & b_{mn} \end{matrix} \right )=\left ( \begin{matrix} c_{11} & c_{12} & \cdots & c_{1n}\\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{m1} & c_{m2} & \cdots & c_{mn} \end{matrix} \right )
Note:对于矩阵乘积 A B AB ,可以表达为 A A 矩阵第 i i 列对应的行矩阵与 B B 矩阵第 j j 列对应的列矩阵的乘积,即:
a i 1 , . . . , a i n ) ( b 1 j b n j ) = k = 1 n a i k b k j (a_{i1},...,a_{in})\left( \begin{matrix} b_{1j}\\ \vdots\\ b_{nj} \end{matrix} \right) = \sum^n_{k=1} a_{ik}b_{kj}
定义3.14 对于对角线上为1,其他地方为0的方阵 I n I_n 称其为单位矩阵(identity matrix),即
I n = ( 1 0 0 0 1 0 0 0 1 ) I_n =\left ( \begin{matrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \end{matrix} \right )
定义3.15 对于 m × n m \times n 的矩阵 A = ( a i j ) A =(a_{ij}) ,其转置(transpose) A T = ( a j i T ) A^T=(a^T_{ji}) 是一个 n × m n \times m 的矩阵,且对于所有的 1 i m , 1 j n 1 \le i \le m , 1 \le j \le n ,都有 a j i T = a i j a^T_{ji} = a_{ij} 。我们有时也将其写为 A t A^t 或者 t A ^tA 。例如 5 × 6 5 \times 6 的矩阵 A A :
A = ( 1 2 3 4 5 6 7 1 2 3 4 5 8 7 1 2 3 4 9 8 7 1 2 3 10 9 8 7 1 2 ) A= \left ( \begin{matrix} 1&2&3&4&5&6\\ 7&1&2&3&4&5\\ 8&7&1&2&3&4\\ 9&8&7&1&2&3\\ 10&9&8&7&1&2 \end{matrix} \right )
那么其转置的矩阵为 A T A^T ,为 6 × 5 6 \times 5 的矩阵:
A T = ( 1 7 8 9 10 2 1 7 8 9 3 2 1 7 8 4 3 2 1 7 5 4 3 2 1 6 5 4 3 2 ) A^T =\left ( \begin{matrix} 1&7&8&9&10\\ 2&1&7&8&9\\ 3&2&1&7&8\\ 4&3&2&1&7\\ 5&4&3&2&1\\ 6&5&4&3&2 \end{matrix} \right )
对于 m × n m \times n 的矩阵 A = ( a i k ) A=(a_{ik}) 以及 n × p n \times p 的矩阵 B = ( b k j ) B = (b_{kj}) ,如果我们将 A A 的列表示为 A 1 , A n A^1,…A^n 并把 B B 的行表示为 B 1 , B n B_1…,B_n ,那么矩阵的乘法可以表示为:
A B = A 1 B 1 + . . . + A n B n AB=A^1B_1 +...+A^nB_n
对于每一个 n n 维的方阵 A A ,必定有 A I n = I n A = A AI_n = I_nA=A

定义3.16 对于任何 n n 维的方阵 A A ,如果存在一个矩阵 B B ,使得 A B = B A = I n AB=BA=I_n ,那么这个矩阵 B B 是唯一的,且我们将其称为矩阵 A A (inverse),也可以表示为 A 1 A^{-1} 。可逆矩阵又被称为非退化矩阵、非奇异矩阵(nonsingular matrix),不可逆矩阵又被称为退化矩阵、奇异矩阵(singular matrix)。

定义3.17 对于一个 m × n m \times n 的矩阵 E i j = ( e h k ) E_{ij}=(e_{hk}) ,其中 e i j = 1 , e h k = 0 e_{ij}=1,e_{hk}=0 ( h i h \ne i k j k \ne j ),换句话说, ( i , j ) (i,j) 项等于1,其他项都是0 。下面是 E i j E_{ij} 的表达,其中 m = 2 , n = 3 m=2,n=3
E 11 = ( 1 0 0 0 0 0 ) , E 12 = ( 0 1 0 0 0 0 ) , E 13 = ( 0 0 1 0 0 0 ) E 21 = ( 0 0 0 1 0 0 ) , E 22 = ( 0 0 0 0 1 0 ) , E 23 = ( 0 0 0 0 0 1 ) E_{11}=\left ( \begin{matrix} 1&0&0\\ 0&0&0 \end{matrix} \right ), E_{12}=\left ( \begin{matrix} 0&1&0\\ 0&0&0 \end{matrix} \right ), E_{13}=\left ( \begin{matrix} 0&0&1\\ 0&0&0 \end{matrix} \right )\\ E_{21}=\left ( \begin{matrix} 0&0&0\\ 1&0&0 \end{matrix} \right ), E_{22}=\left ( \begin{matrix} 0&0&0\\ 0&1&0 \end{matrix} \right ), E_{23}=\left ( \begin{matrix} 0&0&0\\ 0&0&1 \end{matrix} \right )
每一个矩阵 A = ( a i j ) M m , n ( K ) A=(a_{ij}) \in M_{m,n}(K) 都可以被表示为唯一的
A = i = 1 m j = 1 n a i j E i j A=\sum_{i=1}^m\sum_{j=1}^na_{ij}E_{ij}
所以联系3.5节,对于向量集 ( E i j ) 1 i m , 1 j n (E_{ij})_{1 \le i\le m,1 \le j \le n} ,其为向量空间 M m , n ( K ) M_{m,n}(K) 的一组基,其维数为 m n mn

性质3.13

(1)对于矩阵 A M m , n ( K ) B M n , p ( K ) , C M p , q ( K ) A\in M_{m,n}(K),B \in M_{n,p}(K),C\in M_{p,q}(K) ,都有
A B C = A ( B C ) (AB)C =A(BC)
矩阵乘法的结合律(association)

(2)对于矩阵 A , B M m , n ( K ) A,B\in M_{m,n}(K) C , D M n , p ( K ) C,D\in M_{n,p}(K) ,以及所有的 λ K \lambda \in K ,都有
A + B C = A C + B C (A+B)C=AC+BC

A ( C + D ) = A C + A D A(C+D)=AC+AD

( λ A ) C = λ ( A C ) (\lambda A) C=\lambda(AC)

A ( λ C ) = λ ( A C ) A(\lambda C) = \lambda (AC)

即矩阵乘法是双线性的,即 M m , n ( K ) × M n , p ( K ) M m , p ( K ) M_{m,n}(K) \times M_{n,p}(K) \rarr M_{m,p}(K)

实例:

对于这两个 2 × 2 2\times 2 的矩阵 A B A,B
A = ( 1 0 0 0 ) , B = ( 0 0 1 0 ) A=\left ( \begin{matrix} 1&0\\ 0&0 \end{matrix} \right ),B=\left ( \begin{matrix} 0&0\\ 1&0 \end{matrix} \right )
对于 A B AB
A B = ( 1 0 0 0 ) ( 0 0 1 0 ) = ( 0 0 0 0 ) AB=\left ( \begin{matrix} 1&0\\ 0&0 \end{matrix} \right )\left ( \begin{matrix} 0&0\\ 1&0 \end{matrix} \right ) = \left ( \begin{matrix} 0&0\\ 0&0 \end{matrix} \right )
对于 B A BA
B A = ( 0 0 1 0 ) ( 1 0 0 0 ) = ( 0 0 1 0 ) BA=\left ( \begin{matrix} 0&0\\ 1&0 \end{matrix} \right )\left ( \begin{matrix} 1&0\\ 0&0 \end{matrix} \right ) = \left ( \begin{matrix} 0&0\\ 1&0 \end{matrix} \right )
从上面可以看出 A B B A AB \ne BA ,且 A B = 0 AB=0 时, A , B A,B 不一定为零矩阵。

预告

线性映射

猜你喜欢

转载自blog.csdn.net/qq_39867051/article/details/106618321