数学知识[线性代数]

1.向量

1.1 基本概念

【向量(vector)】:一个同时具有大小方向的几何对象。

【行向量(row vector)】:一个 1 × n 1×n 的矩阵,即矩阵由一个含有 n n 个元素的行所组成:

x = [ x 1 , x 2 , , x n ] \mathbf{x}=\left[x_{1}, x_{2}, \dots, x_{n}\right]

【列向量(column vector)】:一个 m × 1 m × 1 的矩阵,即矩阵由一个包含 m m 个元素的列组成:

x = [ x 1 x 2 x m ] \mathbf{x}=\left[\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{m} \end{array}\right]

行向量的转置是一个列向量,反之亦然。

【向量的模】:向量的长度叫做向量的模。假设向量 v = ( v 1 , v 2 , , v n ) v = (v1, v2, …, vn) , 则v的模。记作:

v = v 1 2 + v 2 2 + + v n 2 |\vec{v}|=\sqrt{v_{1}^{2}+v_{2}^{2}+\cdots+v_{n}^{2}}

【单位向量】:模为 1 1 的向量就是单位向量。

【向量的基(也称为基底)】:给定一个向量空间 V V V V 的一组基 B B ,是指 V V 里面的可线性生成 V V 的一个线性无关子集 B B 的元素称为基向量

1.2 常见运算

向量常见的运算有:加法,减法,标量乘向量以及向量之间的乘法(叉乘、点乘)。

在机器学习中,我们需要重点看加法,标量乘向量和点乘。

设:存在两个n维度向量 a = ( a 1 , a 2 , , a n ) a = (a_1, a_2, …, a_n) b = ( b 1 , b 2 , , b n ) b = (b_1, b_2, …, b_n)

1.2.1 向量加法

a + b = ( a 1 + b 1 , a 2 + b 2 , , a n + b n ) a + b = (a_1 + b_1, a_2 + b_2, …, a_n + b_n)

1.2.2 向量乘以标量

设标量为 k k , 则 k a = ( k a 1 , k a 2 , , k a n ) ka = (k{a_1}, ka_2, …, ka_n)

1.2.3 向量点乘

a b = i = 1 n a i b i = a 1 b 1 + a 2 b 2 + + a n b n \vec{a} \cdot \vec{b}=\sum_{i=1}^{n} a_{i} b_{i}=a_{1} b_{1}+a_{2} b_{2}+\dots+a_{n} b_{n}

1.3 向量性质

1.3.1 线性相关(linearly dependent)

假设 V V 是在域 K K 上的向量空间。 V V 中的一组( m m 个)元素中,若有向量可用有限个其他向量的线性组合所表示,则称为线性相关,反之称为线性无关

换言之,如果 v 1 , v 2 , . . . , v n v_1, v_2, ..., v_n V V 的向量,如果从域 K K 中有非全零的元素 a 1 , a 2 , . . . , a n a_1, a_2, ..., a_n ,使得 a 1 v 1 + a 2 v 2 + . . . + a n v n = 0 a_1v_1 + a_2v_2 + ... + a_nv_n = 0 , 则称它们为线性相关。

如果 K K 中不存在这样的元素,那么 v 1 , v 2 , . . . , v n v_1, v_2, ..., v_n 线性无关线性独立

1.3.2 线性相关的几何意义

说向量组 v 1 , v 2 , . . . v m v_1, v_2, ... v_m 线性相关,则:

m = 1 m = 1 时,若 v 1 = 0 v_1 = 0 , 则只含有 v 1 v_1 一个元素的向量组线性相关,否则,线性无关。

m = 2 m = 2 时,如果 a 1 v 1 + a 2 v 2 = 0 a_1v_1 + a_2v_2 = 0 ,则 v 1 v_1 v 2 v_2 线性相关,也就是说 v 1 v_1 v 2 v_2 的分量对应成比例,在几何意义上, v 1 v_1 v 2 v_2 共线。否则,二者线性无关。

m = 3 m =3 时, v 1 , v 2 , v 3 v_1,v_2,v_3 线性相关的几何意义是三者共面

1.3.3 正交

若内积空间中两向量的内积为0,则称它们是正交的。正交是垂直这一直观概念的推广。

1.3.4 正交 vs 线性无关

正交的向量一定线性无关,线性无关的向量不一定正交。

2.线性变换与线性函数

2.1 线性变换

在两个向量空间之间的一种保持向量加法标量乘法的特殊映射,称为线性变换(或线性映射)。

2.2 线性函数

V V W W 是在相同域 K K 上的向量空间。法则 f : V W f : V → W 被称为是线性映射,如果对于 V V 中任何两个向量 x x y y K K 中任何标量 a a ,满足下列两个条件:

(1) 可加性: f ( x + y ) = f ( x ) + f ( y ) f(x+y) = f(x) + f(y)
(2) 齐次性: f ( a x ) = a f ( x ) f(ax) = af(x)

即其维持向量加法与标量乘法。

上述等价于要求对于任何向量 x1, …, xm 和标量 a1, …, am,下面方程成立:

f ( a 1 x 1 + + a m x m ) = a 1 f ( x 1 ) + + a m f ( x m ) f\left(a_{1} x_{1}+\cdots+a_{m} x_{m}\right)=a_{1} f\left(x_{1}\right)+\cdots+a_{m} f\left(x_{m}\right)

当上述的法则 f : V W f : V → W 为函数时,就是线性函数。

比较直观的理解就是大部分一次函数,例如二维空间中的 f ( x ) = a x + b f(x)=ax+b ,其中 a , b a,b 为常数。

3. 矩阵

3.1 m x n 矩阵

3.1.1 定义

将一些元素排列成若干行,每行放上相同数量的元素,就是一个矩阵。

一个 m × n m×n 的矩阵是一个由 m m n n 列元素排列成的矩形阵列,矩阵里的元素可以是数字、符号或数学式。

3.1.2 矩阵的基本运算

最基本运算包括矩阵加(减)法,数乘和转置运算。

【1】矩阵加法: m × n m×n 矩阵 A A B B 的和(差): A ± B A±B 为一个 m × n m×n 矩阵,其中每个元素是 A A B B 相应元素的和(差): ( A ± B ) i , j = A i , j ± B i , j (A ± B)_{i,j}= A_{i,j} ± B_{i,j}, 其中 1 i m , 1 j n 1 ≤ i ≤ m , 1 ≤ j ≤ n .

【2】矩阵数乘:标量 c c 与矩阵 A A 的数乘: c A cA 的每个元素是 A A 的相应元素与 c c 的乘积, ( c A ) i , j = c A i , j (cA)_{i,j} = cA_{i,j}

【3】矩阵转置: m × n m×n 矩阵 A A 的转置是一个 n × m n×m 的矩阵,记为 A T A^T (或 A A' ),其中的第 i i 个行向量是原矩阵 A A 的第 i i 个列向量;或者说,转置矩阵 A T A^T i i 行第 j j 列的元素是原矩阵 A A j j 行第 i i 列的元素, ( A T ) i , j = A j , i (A^T)_{i,j} = A_{j,i}

【4】矩阵的乘法:两个矩阵的乘法仅当第一个矩阵 A A 的列数和另一个矩阵 B B 的行数相等时才能定义。如 A A m × n m×n 矩阵和 B B n × p n×p 矩阵,它们的乘积 A B AB 是一个 m × p m×p 矩阵,它的一个元素

[ A B ] i , j = A i , 1 B 1 , j + A i , 2 B 2 , j + + A i , n B n , j = r = 1 n A i , r B r , j [\mathbf{A B}]_{i, j}=A_{i, 1} B_{1, j}+A_{i, 2} B_{2, j}+\cdots+A_{i, n} B_{n, j}=\sum_{r=1}^{n} A_{i, r} B_{r, j}

其中 1 i m , 1 j p 1 ≤ i ≤ m, 1 ≤ j ≤ p

3.1.3 矩阵运算的规律

[1] 矩阵的加法运算满足交换律:

A + B = B + A A + B = B + A

[2] 矩阵的转置和数乘运算满足分配律:

( A + B ) T = A T + B T (A + B)^T = A^T + B^T

c ( A + B ) = c A + c B c(A + B) = cA + cB

并满足类似于结合律的规律: c ( A T ) = ( c A ) T c(A^T) = (cA)^T .

[3] 矩阵的乘法满足结合律和对矩阵加法的分配律(左分配律和右分配律):

• 结合律: ( A B ) C = A ( B C ) (AB)C = A(BC) ,
• 左分配律: ( A + B ) C = A C + B C (A + B)C = AC + BC ,
• 右分配律: C ( A + B ) = C A + C B C(A + B) = CA + CB .

[4] 矩阵的乘法与数乘运算之间也满足类似结合律的规律:

c ( A B ) = ( c A ) B = A ( c B ) c(AB) = (cA)B = A(cB)

[5] 矩阵的乘法与转置之间则满足倒置的分配律:

( A B ) T = B T A T (AB)^T = B^TA^T

[6] 矩阵乘法***不***满足交换律。

一般来说,矩阵 A A B B 的乘积 A B AB 存在,但 B A BA 不一定存在,即使存在,大多数时候 A B B A AB ≠ BA

3.1.4 矩阵与线性变换的关系

矩阵是线性变换的便利表达法。

R n R^{n} 表示所有长度为n的行向量的集合。每个 m × n m×n 的矩阵 A A 都代表了一个从 R n R^n 射到 R m R^m 的线性变换。

也就是说,对每个线性变换 f : R n > R m f: R^n -> R^m ,都存在唯一 m × n m×n 矩阵 A A 使得对所有 R n R^n 中的元素 x x f ( x ) = A x f(x) = Ax

3.1.5 相关基本概念

【矩阵的秩】: 用初等行变换将矩阵 A A 化为阶梯形矩阵, 则矩阵中非零行的个数就定义为这个矩阵的秩。

【列秩】:一个矩阵 A A 的列秩是 A A 线性独立的纵列的最大数目。

【行秩】:一个矩阵 A A 的行秩是 A A 线性独立的横行的最大数目。

行秩和列秩的关系:矩阵的列秩和行秩总是相等的。因此它们可以简单地称作矩阵 A A 的秩。通常表示为 r ( A ) r(A) r k ( A ) rk(A) r a n k A rank A

【满秩矩阵(non-singular matrix)】:若矩阵秩等于行数,称为行满秩;若矩阵秩等于列数,称为列满秩。既是行满秩又是列满秩则为 n n 阶矩阵即 n n 阶方阵。

【子式】:设 A A 为一个 m × n m×n 的矩阵, k k 为一个介于 1 1 m m 之间的整数,并且 k n k≤n A A 的一个 k k 阶子式是在 A A 中选取 k k k k 列之后所产生的 k 2 k^2 个交点组成的方块矩阵的行列式。

【余子式】: A A 的一个 k k 阶余子式是 A A 去掉了 k k 行与 k k 列之后得到的 ( m k ) × ( n k ) (m-k)×(n-k) 矩阵的行列式。

NOTE: 在 m n m \neq n 的情况下,这样的行列式如何计算是没有定义的,仅仅在概念上存在。

【零矩阵】:即所有元素皆为0的矩阵。

NOTE:对称矩阵,对角矩阵,矩阵的对角化等都有针对 m x n mxn 矩阵的一般定义,但是在应用的层面,我们不必进行这些一般性的讨论,而只需要关注其针对 n x n nxn 阶方阵的情形即可,因此,大多数情况下,对于矩阵的性质和运算,我们集中关注方阵这一特例。

3.2 n x n方阵

方阵具备一些一般 m x n m x n 矩阵 ( m n ) (m \neq n) 所不具备的特征和属性,使得它们特别有用。而一些运算,如对角化等在方阵中比一般矩阵中多见而且更容易,因此,许多问题我们集中在方阵里讨论。

3.2.1 基本概念

【方阵】:在所有矩阵中,行和列相等的那类称为方阵

【行列式】:将一个 n × n n \times n 的方阵 A A 映射到一个标量,记作 A |A| d e t ( A ) det(A) 。虽然记作 A |A| ,但其实一个矩阵的行列式有可能是负数,这里要注意和绝对值区别。

• 1阶矩阵的行列式:就是它本身。

• 2阶矩阵的行列式:

a 1 , 1 a 1 , 2 a 2 , 1 a 2 , 2 = a 1 , 1 a 2 , 2 a 1 , 2 a 2 , 1 \left|\begin{array}{ll} a_{1,1} & a_{1,2} \\ a_{2,1} & a_{2,2} \end{array}\right|=a_{1,1} a_{2,2}-a_{1,2} a_{2,1}

• 3阶矩阵的行列式:

a 1 , 1 a 1 , 2 a 1 , 3 a 2 , 1 a 2 , 2 a 2 , 3 a 3 , 1 a 3 , 2 a 3 , 3 = a 1 , 1 a 2 , 2 a 3 , 3 + a 1 , 2 a 2 , 3 a 3 , 1 + a 1 , 3 a 2 , 1 a 3 , 2 a 1 , 3 a 2 , 2 a 3 , 1 a 1 , 1 a 2 , 3 a 3 , 2 a 1 , 2 a 2 , 1 a 3 , 3 \left|\begin{array}{lll} a_{1,1} & a_{1,2} & a_{1,3} \\ a_{2,1} & a_{2,2} & a_{2,3} \\ a_{3,1} & a_{3,2} & a_{3,3} \end{array}\right|=a_{1,1} a_{2,2} a_{3,3}+a_{1,2} a_{2,3} a_{3,1}+a_{1,3} a_{2,1} a_{3,2}-a_{1,3} a_{2,2} a_{3,1}-a_{1,1} a_{2,3} a_{3,2}-a_{1,2} a_{2,1} a_{3,3}

【主子式】:设 A A 是一个 n n 阶方阵, I I J J 是集合 1 , . . . , n 1,...,n 的一个 k k 元子集,那么 [ A ] I , J [A]_{I,J} 表示 A A k k 阶子式。其中抽取的 k k 行的行标是 I I 中所有元素, k k 列的列标是 J J 中所有元素。

如果 I = J I=J ,那么称 [ A ] I , J [A]_{I,J} A A 的主子式。

如果 I = J = 1 , . . . , k I=J={1,...,k} (所取的是左起前 k k 列和上起前 k k 行),那么相应的主子式被称为顺序主子式。一个 n × n n×n 的方块矩阵有 n n 个顺序主子式。

【余子式】:设 A A 为一个 n n 阶方阵, A A 关于一个 k k 阶子式的余子式,是 A A 去掉了这个 k k 阶子式所在的行与列之后得到的 ( n k ) × ( n k ) (n-k)×(n-k) 矩阵的行列式,简称为 A A k k 阶余子式。

A A 关于第 i i 行第 j j 列的余子式 M i j M_{ij} 是指 A A 中去掉第 i i 行第 j j 列后得到的 n 1 n−1 阶子矩阵的行列式。有时可以简称为 A A i j i,j 余子式。记作 M i j M_{ij}

【余子矩阵】: n n 阶方阵 A A 的余子矩阵是指将 A A ( i , j ) (i, j) 代数余子式摆在第 i i 行第 j j 列所得到的矩阵,记为 C C

C i j = ( 1 ) ( i + j ) M i j C_{ij} = (−1)^{(i + j)} M_{ij}

【伴随矩阵】:上述余子矩阵 C C 的转置矩阵,称为 n n 阶方阵 A A 的伴随矩阵。记作 A A*

【单位矩阵】:单位矩阵(记作 I I )的对角线全是 1 1 而其他位置全是 0 0

【置换矩阵】:是一种系数只由 0 0 1 1 组成的方块矩阵。置换矩阵的每一行和每一列都恰好有一个 1 1 ,其余的系数都是 0 0

3.2.2 逆矩阵,可逆矩阵,(非)奇异矩阵及可逆与其他概念的关系

【逆矩阵】:给定一个 n n 阶方阵 A A ,若存在一 n n 阶方阵 B B , 使得 A B = B A = I AB=BA=I ,其中 I I n n 阶单位矩阵,则称 A A 是可逆的,且 B B A A 的逆阵,记作 A ( 1 ) A^{(-1)}

【可逆矩阵】:若 n n 阶方阵 A A 的逆阵存在,则称 A A 非奇异方阵可逆方阵

可逆和满秩的关系:对 n n 阶方阵而言,满秩等价于可逆

可逆和伴随的关系:如果 n n 阶方阵 A A 可逆,那么它的逆矩阵和它的伴随矩阵之间只差一个系数。

A 1 = A A A^{-1}=\frac{A^{*}}{|A|}

然而,伴随矩阵对不可逆的矩阵也有定义,并且不需要用到除法。

【奇异方阵】:若方块矩阵A满足条件 A = 0 |A|=0 ,则称A为奇异方阵,否则称为非奇异方阵。

可逆和非奇异方阵的关系:对于 n n 阶方阵而言,非奇异等价于可逆矩阵。

3.2.3 对称矩阵、对角矩阵、可对角化和对角化

【对称矩阵】:对称矩阵是一个n阶方阵,其转置矩阵和自身相等:

A = A T A=A^{\mathrm{T}}

对称矩阵中的右上至左下方向元素以主对角线(左上至右下)为轴对称。若将其写作 A = a i j A= a_{ij} ,则: a i j = a j i a_{ij} = a_{ji}

方阵与对称的关系:对于任何方阵 A A + A T A,A + A^T 都是对称矩阵

【对角矩阵】: 是一个主对角线之外的元素皆为 0 0 n n 阶方阵。对角线上的元素可以为 0 0 或其他值。

对角与对称的关系:对角矩阵都是对称矩阵。

【可对角化】:如果一个方块矩阵 A A 相似于对角矩阵,也就是说,如果存在一个可逆矩阵 P P 使得 P 1 A P P^{-1}AP 是对角矩阵,则它就被称为可对角化的。

方阵可对角化充要条件: n x n n x n 方阵可进行对角化的充分必要条件是:

(1) n n 阶方阵存在 n n 个线性无关的特征向量。

(2) 如果 n n 阶方阵存在重复的特征值,每个特征值的线性无关的特征向量的个数恰好等于该特征值的重复次数

【对角化】:将可对角化的方阵 A A 通过与转换矩阵 P P 的运算,转换为对角矩阵的过程叫做对角化。

3.2.4 相似矩阵和相似变换

【相似矩阵】:两个系数域为 K K n n 阶方阵 A A B B 为域 L L 上的相似矩阵当且仅当存在一个系数域为 L L n × n n×n 的可逆矩阵 P P ,使得:

P 1 A P = B P^{-1} A P=B

这时,称矩阵 A A B B “相似”。

【相似变换】: 相似变换是矩阵之间的一种等价关系。也就是说满足:

反身性:任意矩阵都与其自身相似。
对称性:如果 A A B B 相似,那么 B B 也和 A A 相似。
传递性:如果 A A B B 相似, B B C C 相似,那么 A A 也和 C C 相似。

3.2.5 正交矩阵和正交变换

【正交矩阵】:一个 n n 阶方阵 Q Q ,其元素为实数,而且行(列)向量为两两正交的单位向量,使得该矩阵的转置矩阵为其逆矩阵。

Q T = Q 1 Q T Q = Q Q T = I Q^{T}=Q^{-1} \Leftrightarrow Q^{T} Q=Q Q^{T}=I

其中, I I 为单位矩阵。正交矩阵的行列式值必定为 + 1 +1 1 -1

【正交变换】: Q Q 为正交矩阵,而 v v 为向量,则 Q v Qv 称作正交变换。正交变换不改变向量的长度。

3.2.6 用正交阵对对称阵进行合同变换

对于 n n 阶对称阵 A A ,必存在正交阵 P P ,使得:

P 1 A P = P T A P = Λ P^{-1} A P=P^{T} A P=\Lambda

其中 Λ Λ 为以 A A n n 个特征值为对角元的对角阵。这种变换叫做合同变换。 A A Λ Λ 互为合同矩阵

3.3 实对称矩阵

3.3.1 定义

实对称矩阵是一个 n n 阶方阵,其元素都为实数,且转置矩阵和自身相等:

A = A T A=A^{\mathrm{T}}

3.3.2 实对称矩阵的性质

(1)实对称阵的特征值为实数,其特征向量可以取实向量。

(2)实对称矩阵都能对角化,且可用正交矩阵对其进行对角化。

(3) 任意的 n × n n \times n 实对称矩阵都有 n n 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为 1 1 的向量。

故实对称矩阵 A A 可被分解成:

A = Q Λ Q T \mathbf{A}=\mathbf{Q} \mathbf{\Lambda} \mathbf{Q}^{T}

其中 Q Q 为 正交矩阵, Λ Λ 为实对角矩阵。

(4)实对称矩阵不同特征值的特征向量正交。

3.3.3 正定、半正定、负定、半负定

对于一个 n × n n \times n 的实对称矩阵 M M , 当且仅当它对于所有非零实系数向量 z z 都有:

enter image description here

其中 z T z^T 表示 z z 的转置。

NOTE: 对于复数对称阵,也有同样概念,但此处不考虑。

4. 特征值和特征向量

4.1 定义

对于 n x n n x n 方阵 A A ,若标量 λ λ n n 维非 0 0 列向量 v v 满足:

A v = λ v A v=\lambda v

那么称 λ λ A A 的特征值, v v 称为对应于特征值 λ λ 的特征向量。

4.2 几何意义

λ λ 反映的是:特征向量 v v 的长度在线性变换 A A 下缩放的比例。

如果特征值为正,则表示 v v 在经过线性变换的作用后方向也不变;如果特征值为负,说明方向会反转;如果特征值为 0 0 ,则是表示缩回零点。但无论怎样,仍在同一条直线上。

4.3 相关概念

【特征空间】: n n 阶方阵 A A 所有具有相同的特征值 λ λ 的特征向量和零向量一起,组成了一个向量空间,称为 A A 的一个特征空间。

【几何重数】:这个特征空间如果是有限维的,那么它的维数叫做 λ λ 的几何重数。

【主特征向量】: 模最大的特征值对应的特征向量是 A A 的主特征向量。

【谱】:在有限维向量空间上,一个方阵 A A 的其所有特征值的集合就是 A A 的谱。

【标准正交基】:是元素两两正交的基。称基中的元素为基向量。

4.4 特征向量与系数方程

特征向量也可以看作是关于系数 λ λ 的方程: T ( x ) = λ x T(x) = λx 的非零解。

4.5 特征值的性质

n n 阶方阵 A = a i j A=(aij) n n 个特征值(其中可能包括重复值) λ 1 λ 2 λ n λ1, λ2, … λn ,则有

(1)这 n n 个特征值的和为 A A 对角线上各个数的和: λ 1 + λ 2 + + λ n = a 11 + a 22 + + a n n λ1 + λ2 + … + λn = a11 + a22 + … + ann

(2)这 n n 个特征值的乘积为 A A 的行列式: λ 1 λ 2 λ n = A λ1λ2…λn = |A|

(3)不相等的特征值所对应的特征向量线性无关。

(4) 如果一个 n n 阶方阵有 n n 个不同的特征值,那么矩阵必然存在相似矩阵。

发布了166 篇原创文章 · 获赞 27 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/HdUIprince/article/details/105466882
今日推荐