1.向量
1.1 基本概念
【向量(vector)】:一个同时具有大小和方向的几何对象。
【行向量(row vector)】:一个
1×n 的矩阵,即矩阵由一个含有
n个元素的行所组成:
x=[x1,x2,…,xn]
【列向量(column vector)】:一个
m×1的矩阵,即矩阵由一个包含
m个元素的列组成:
x=⎣⎢⎢⎢⎡x1x2⋮xm⎦⎥⎥⎥⎤
行向量的转置是一个列向量,反之亦然。
【向量的模】:向量的长度叫做向量的模。假设向量
v=(v1,v2,…,vn), 则v的模。记作:
∣v
∣=v12+v22+⋯+vn2
【单位向量】:模为
1的向量就是单位向量。
【向量的基(也称为基底)】:给定一个向量空间
V。
V的一组基
B,是指
V里面的可线性生成
V的一个线性无关子集。
B的元素称为基向量。
1.2 常见运算
向量常见的运算有:加法,减法,标量乘向量以及向量之间的乘法(叉乘、点乘)。
在机器学习中,我们需要重点看加法,标量乘向量和点乘。
设:存在两个n维度向量
a=(a1,a2,…,an) 和
b=(b1,b2,…,bn)
1.2.1 向量加法
a+b=(a1+b1,a2+b2,…,an+bn)
1.2.2 向量乘以标量
设标量为
k, 则
ka=(ka1,ka2,…,kan)
1.2.3 向量点乘
a
⋅b
=i=1∑naibi=a1b1+a2b2+⋯+anbn
1.3 向量性质
1.3.1 线性相关(linearly dependent)
假设
V是在域
K上的向量空间。
V中的一组(
m个)元素中,若有向量可用有限个其他向量的线性组合所表示,则称为线性相关,反之称为线性无关。
换言之,如果
v1,v2,...,vn是
V的向量,如果从域
K中有非全零的元素
a1,a2,...,an,使得
a1v1+a2v2+...+anvn=0, 则称它们为线性相关。
如果
K中不存在这样的元素,那么
v1,v2,...,vn是线性无关或线性独立。
1.3.2 线性相关的几何意义
说向量组
v1,v2,...vm 线性相关,则:
当
m=1时,若
v1=0, 则只含有
v1一个元素的向量组线性相关,否则,线性无关。
当
m=2时,如果
a1v1+a2v2=0,则
v1和
v2线性相关,也就是说
v1和
v2的分量对应成比例,在几何意义上,
v1和
v2共线。否则,二者线性无关。
当
m=3时,
v1,v2,v3线性相关的几何意义是三者共面。
1.3.3 正交
若内积空间中两向量的内积为0,则称它们是正交的。正交是垂直这一直观概念的推广。
1.3.4 正交 vs 线性无关
正交的向量一定线性无关,线性无关的向量不一定正交。
2.线性变换与线性函数
2.1 线性变换
在两个向量空间之间的一种保持向量加法和标量乘法的特殊映射,称为线性变换(或线性映射)。
2.2 线性函数
设
V 和
W 是在相同域
K 上的向量空间。法则
f:V→W 被称为是线性映射,如果对于
V 中任何两个向量
x 和
y 与
K 中任何标量
a,满足下列两个条件:
(1) 可加性:
f(x+y)=f(x)+f(y)
(2) 齐次性:
f(ax)=af(x)
即其维持向量加法与标量乘法。
上述等价于要求对于任何向量 x1, …, xm 和标量 a1, …, am,下面方程成立:
f(a1x1+⋯+amxm)=a1f(x1)+⋯+amf(xm)
当上述的法则
f:V→W为函数时,就是线性函数。
比较直观的理解就是大部分一次函数,例如二维空间中的
f(x)=ax+b,其中
a,b为常数。
3. 矩阵
3.1 m x n 矩阵
3.1.1 定义
将一些元素排列成若干行,每行放上相同数量的元素,就是一个矩阵。
一个
m×n的矩阵是一个由
m行
n列元素排列成的矩形阵列,矩阵里的元素可以是数字、符号或数学式。
3.1.2 矩阵的基本运算
最基本运算包括矩阵加(减)法,数乘和转置运算。
【1】矩阵加法:
m×n矩阵
A和
B的和(差):
A±B为一个
m×n矩阵,其中每个元素是
A和
B相应元素的和(差):
(A±B)i,j=Ai,j±Bi,j,其中
1≤i≤m,1≤j≤n.
【2】矩阵数乘:标量
c与矩阵
A的数乘:
cA的每个元素是
A的相应元素与
c的乘积,
(cA)i,j=cAi,j
【3】矩阵转置:
m×n矩阵
A的转置是一个
n×m的矩阵,记为
AT(或
A′),其中的第
i个行向量是原矩阵
A的第
i个列向量;或者说,转置矩阵
AT第
i行第
j列的元素是原矩阵
A第
j行第
i列的元素,
(AT)i,j=Aj,i
【4】矩阵的乘法:两个矩阵的乘法仅当第一个矩阵
A的列数和另一个矩阵
B的行数相等时才能定义。如
A是
m×n矩阵和
B是
n×p矩阵,它们的乘积
AB是一个
m×p矩阵,它的一个元素
[AB]i,j=Ai,1B1,j+Ai,2B2,j+⋯+Ai,nBn,j=r=1∑nAi,rBr,j
其中
1≤i≤m,1≤j≤p
3.1.3 矩阵运算的规律
[1] 矩阵的加法运算满足交换律:
A+B=B+A
[2] 矩阵的转置和数乘运算满足分配律:
(A+B)T=AT+BT
c(A+B)=cA+cB
并满足类似于结合律的规律:
c(AT)=(cA)T.
[3] 矩阵的乘法满足结合律和对矩阵加法的分配律(左分配律和右分配律):
• 结合律:
(AB)C=A(BC),
• 左分配律:
(A+B)C=AC+BC,
• 右分配律:
C(A+B)=CA+CB.
[4] 矩阵的乘法与数乘运算之间也满足类似结合律的规律:
c(AB)=(cA)B=A(cB)
[5] 矩阵的乘法与转置之间则满足倒置的分配律:
(AB)T=BTAT
[6] 矩阵乘法***不***满足交换律。
一般来说,矩阵
A及
B的乘积
AB存在,但
BA不一定存在,即使存在,大多数时候
AB=BA。
3.1.4 矩阵与线性变换的关系
矩阵是线性变换的便利表达法。
以
Rn表示所有长度为n
的行向量的集合。每个
m×n的矩阵
A都代表了一个从
Rn射到
Rm的线性变换。
也就是说,对每个线性变换
f:Rn−>Rm,都存在唯一
m×n矩阵
A使得对所有
Rn中的元素
x,
f(x)=Ax。
3.1.5 相关基本概念
【矩阵的秩】: 用初等行变换将矩阵
A化为阶梯形矩阵, 则矩阵中非零行的个数就定义为这个矩阵的秩。
【列秩】:一个矩阵
A的列秩是
A的线性独立的纵列的最大数目。
【行秩】:一个矩阵
A的行秩是
A的线性独立的横行的最大数目。
行秩和列秩的关系:矩阵的列秩和行秩总是相等的。因此它们可以简单地称作矩阵
A的秩。通常表示为
r(A),
rk(A)或
rankA。
【满秩矩阵(non-singular matrix
)】:若矩阵秩等于行数,称为行满秩;若矩阵秩等于列数,称为列满秩。既是行满秩又是列满秩则为
n阶矩阵即
n阶方阵。
【子式】:设
A为一个
m×n 的矩阵,
k为一个介于
1和
m之间的整数,并且
k≤n。
A的一个
k阶子式是在
A中选取
k行
k列之后所产生的
k2个交点组成的方块矩阵的行列式。
【余子式】:
A的一个
k阶余子式是
A去掉了
k行与
k列之后得到的
(m−k)×(n−k)矩阵的行列式。
NOTE: 在
m=n的情况下,这样的行列式如何计算是没有定义的,仅仅在概念上存在。
【零矩阵】:即所有元素皆为0的矩阵。
NOTE:对称矩阵,对角矩阵,矩阵的对角化等都有针对
mxn矩阵的一般定义,但是在应用的层面,我们不必进行这些一般性的讨论,而只需要关注其针对
nxn阶方阵的情形即可,因此,大多数情况下,对于矩阵的性质和运算,我们集中关注方阵这一特例。
3.2 n x n方阵
方阵具备一些一般
mxn矩阵
(m=n) 所不具备的特征和属性,使得它们特别有用。而一些运算,如对角化等在方阵中比一般矩阵中多见而且更容易,因此,许多问题我们集中在方阵里讨论。
3.2.1 基本概念
【方阵】:在所有矩阵中,行和列相等的那类称为方阵。
【行列式】:将一个
n×n的方阵
A映射到一个标量,记作
∣A∣或
det(A)。虽然记作
∣A∣,但其实一个矩阵的行列式有可能是负数,这里要注意和绝对值区别。
• 1阶矩阵的行列式:就是它本身。
• 2阶矩阵的行列式:
∣∣∣∣a1,1a2,1a1,2a2,2∣∣∣∣=a1,1a2,2−a1,2a2,1
• 3阶矩阵的行列式:
∣∣∣∣∣∣a1,1a2,1a3,1a1,2a2,2a3,2a1,3a2,3a3,3∣∣∣∣∣∣=a1,1a2,2a3,3+a1,2a2,3a3,1+a1,3a2,1a3,2−a1,3a2,2a3,1−a1,1a2,3a3,2−a1,2a2,1a3,3
【主子式】:设
A是一个
n阶方阵,
I和
J是集合
1,...,n 的一个
k元子集,那么
[A]I,J表示
A的
k阶子式。其中抽取的
k行的行标是
I中所有元素,
k列的列标是
J中所有元素。
如果
I=J,那么称
[A]I,J是
A的主子式。
如果
I=J=1,...,k(所取的是左起前
k列和上起前
k行),那么相应的主子式被称为顺序主子式。一个
n×n的方块矩阵有
n个顺序主子式。
【余子式】:设
A为一个
n阶方阵,
A关于一个
k阶子式的余子式,是
A去掉了这个
k阶子式所在的行与列之后得到的
(n−k)×(n−k)矩阵的行列式,简称为
A的
k阶余子式。
A关于第
i行第
j列的余子式
Mij是指
A中去掉第
i行第
j列后得到的
n−1阶子矩阵的行列式。有时可以简称为
A的
i,j余子式。记作
Mij。
【余子矩阵】:
n阶方阵
A的余子矩阵是指将
A的
(i,j)代数余子式摆在第
i行第
j列所得到的矩阵,记为
C。
Cij=(−1)(i+j)Mij
【伴随矩阵】:上述余子矩阵
C的转置矩阵,称为
n阶方阵
A的伴随矩阵。记作
A∗。
【单位矩阵】:单位矩阵(记作
I)的对角线全是
1而其他位置全是
0。
【置换矩阵】:是一种系数只由
0和
1组成的方块矩阵。置换矩阵的每一行和每一列都恰好有一个
1,其余的系数都是
0。
3.2.2 逆矩阵,可逆矩阵,(非)奇异矩阵及可逆与其他概念的关系
【逆矩阵】:给定一个
n阶方阵
A,若存在一
n阶方阵
B, 使得
AB=BA=I,其中
I为
n阶单位矩阵,则称
A是可逆的,且
B是
A的逆阵,记作
A(−1)。
【可逆矩阵】:若
n 阶方阵
A 的逆阵存在,则称
A 为非奇异方阵或可逆方阵。
可逆和满秩的关系:对
n阶方阵而言,满秩等价于可逆。
可逆和伴随的关系:如果
n阶方阵
A可逆,那么它的逆矩阵和它的伴随矩阵之间只差一个系数。
A−1=∣A∣A∗
然而,伴随矩阵对不可逆的矩阵也有定义,并且不需要用到除法。
【奇异方阵】:若方块矩阵A满足条件
∣A∣=0,则称A为奇异方阵,否则称为非奇异方阵。
可逆和非奇异方阵的关系:对于
n阶方阵而言,非奇异等价于可逆矩阵。
3.2.3 对称矩阵、对角矩阵、可对角化和对角化
【对称矩阵】:对称矩阵是一个n阶方阵,其转置矩阵和自身相等:
A=AT
对称矩阵中的右上至左下方向元素以主对角线(左上至右下)为轴对称。若将其写作
A=aij,则:
aij=aji
方阵与对称的关系:对于任何方阵
A,A+AT 都是对称矩阵。
【对角矩阵】: 是一个主对角线之外的元素皆为
0的
n阶方阵。对角线上的元素可以为
0或其他值。
对角与对称的关系:对角矩阵都是对称矩阵。
【可对角化】:如果一个方块矩阵
A 相似于对角矩阵,也就是说,如果存在一个可逆矩阵
P 使得
P−1AP 是对角矩阵,则它就被称为可对角化的。
方阵可对角化充要条件:
nxn方阵可进行对角化的充分必要条件是:
(1)
n阶方阵存在
n个线性无关的特征向量。
(2) 如果
n阶方阵存在重复的特征值,每个特征值的线性无关的特征向量的个数恰好等于该特征值的重复次数
【对角化】:将可对角化的方阵
A通过与转换矩阵
P的运算,转换为对角矩阵的过程叫做对角化。
3.2.4 相似矩阵和相似变换
【相似矩阵】:两个系数域为
K的
n阶方阵
A与
B为域
L上的相似矩阵当且仅当存在一个系数域为
L的
n×n的可逆矩阵
P,使得:
P−1AP=B
这时,称矩阵
A与
B“相似”。
【相似变换】: 相似变换是矩阵之间的一种等价关系。也就是说满足:
反身性:任意矩阵都与其自身相似。
对称性:如果
A和
B相似,那么
B也和
A相似。
传递性:如果
A和
B相似,
B和
C相似,那么
A也和
C相似。
3.2.5 正交矩阵和正交变换
【正交矩阵】:一个
n阶方阵
Q,其元素为实数,而且行(列)向量为两两正交的单位向量,使得该矩阵的转置矩阵为其逆矩阵。
QT=Q−1⇔QTQ=QQT=I
其中,
I为单位矩阵。正交矩阵的行列式值必定为
+1或
−1
【正交变换】:
Q为正交矩阵,而
v为向量,则
Qv称作正交变换。正交变换不改变向量的长度。
3.2.6 用正交阵对对称阵进行合同变换
对于
n阶对称阵
A,必存在正交阵
P,使得:
P−1AP=PTAP=Λ
其中
Λ 为以
A的
n个特征值为对角元的对角阵。这种变换叫做合同变换。
A和
Λ 互为合同矩阵。
3.3 实对称矩阵
3.3.1 定义
实对称矩阵是一个
n阶方阵,其元素都为实数,且转置矩阵和自身相等:
A=AT
3.3.2 实对称矩阵的性质
(1)实对称阵的特征值为实数,其特征向量可以取实向量。
(2)实对称矩阵都能对角化,且可用正交矩阵对其进行对角化。
(3) 任意的
n×n 实对称矩阵都有
n 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为
1 的向量。
故实对称矩阵
A 可被分解成:
A=QΛQT
其中
Q 为 正交矩阵,
Λ 为实对角矩阵。
(4)实对称矩阵不同特征值的特征向量正交。
3.3.3 正定、半正定、负定、半负定
对于一个
n×n的实对称矩阵
M, 当且仅当它对于所有非零实系数向量
z都有:
其中
zT表示
z的转置。
NOTE: 对于复数对称阵,也有同样概念,但此处不考虑。
4. 特征值和特征向量
4.1 定义
对于
nxn方阵
A,若标量
λ和
n维非
0列向量
v满足:
Av=λv
那么称
λ为
A的特征值,
v称为对应于特征值
λ的特征向量。
4.2 几何意义
λ反映的是:特征向量
v的长度在线性变换
A下缩放的比例。
如果特征值为正,则表示
v在经过线性变换的作用后方向也不变;如果特征值为负,说明方向会反转;如果特征值为
0,则是表示缩回零点。但无论怎样,仍在同一条直线上。
4.3 相关概念
【特征空间】:
n阶方阵
A所有具有相同的特征值
λ的特征向量和零向量一起,组成了一个向量空间,称为
A的一个特征空间。
【几何重数】:这个特征空间如果是有限维的,那么它的维数叫做
λ的几何重数。
【主特征向量】: 模最大的特征值对应的特征向量是
A的主特征向量。
【谱】:在有限维向量空间上,一个方阵
A的其所有特征值的集合就是
A的谱。
【标准正交基】:是元素两两正交的基。称基中的元素为基向量。
4.4 特征向量与系数方程
特征向量也可以看作是关于系数
λ的方程:
T(x)=λx 的非零解。
4.5 特征值的性质
n阶方阵
A=(aij)有
n个特征值(其中可能包括重复值)
λ1,λ2,…λn,则有
(1)这
n个特征值的和为
A对角线上各个数的和:
λ1+λ2+…+λn=a11+a22+…+ann
(2)这
n个特征值的乘积为
A的行列式:
λ1λ2…λn=∣A∣
(3)不相等的特征值所对应的特征向量线性无关。
(4) 如果一个
n阶方阵有
n个不同的特征值,那么矩阵必然存在相似矩阵。