深度学习 --- 应用数学和机器学习基础(线性代数)

1、线性相关和生成子空间

对于线性方程组:Ax=b,如果逆矩阵 存在,那么对每一个向量b恰好存在一个解。但是,对于方程组而言,对于向量b的某些值,有可能不存在解或者存在无限多解。

为了分析方程有多少个解,我们可以将A的列向量看作从原点出发的不同方向,确定有多少种方法可以到达向量b。在这个观点下,向量x中的每个元素表示我们应该沿着这些方向走多远,即xi表示我们需要沿着第i个向量的方向走多远。一般,这种操作称为线性组合。

一组向量的生成子空间是原始向量线性组合后所能抵达的点的集合。

确定Ax=b是否有解,相当于确定向量b是否在A列向量的生成子空间中。这个特殊的生成子空间被称为A的列空间或者A的值域。

为了使方程Ax=b对于任意向量 都存在解,我们要求A的列空间构成整个 。如果 中的某个点不在A的列空间中,那么该点对应的b会使得该方程没有解。矩阵A的列空间是整个 的要求,意味着A至少有m列,即n≥m。否则A的列空间维数会小于m。

2、范数

范数可以通过点积 计算

当机器学习问题中零和非零元素之间的差异非常重要时,通常会使用 范数。每当x中某个元素从0增加ε,对应的范数也会增加ε。

有时会统计向量中非零元素的个数来衡量向量的大小,有些作者称为 范数,在数学意义上不对,因为对向量缩放α倍不会改变该向量非零元素的数目。

范数,最大范数,表示向量中具有最大幅值的元素的绝对值:

衡量矩阵大小,用Frobenius范数,即

3、特殊类型的矩阵和向量

对角矩阵diag(v)x,只需将x中的每个元素 放大 倍。

对角矩阵diag(v)的逆矩阵存在,当且仅当对角元素都是非零值,此时

非方阵的对角矩阵没有逆矩阵

对于一个长方形对角矩阵D而言,乘法Dx会涉及x中每个元素的缩放,如果D是瘦长型矩阵,那么在缩放后的末尾添加一些零,如果D是宽胖型矩阵,那么在缩放后去掉一些元素。

正交矩阵是指行向量和列向量是分别标准正交的方阵,即 ,这意味着 。正交矩阵的行向量不仅是正交的,而且是标准正交的。对于行向量或列向量互相正交但不是标准正交的矩阵,没有对应的专有术语

4、特征分解

非奇异矩阵A,n×n:Av = λv

每个实对称矩阵都可以分解成是特征向量和实特征值: ,Q是A的特征向量组成的正交矩阵。

实对称矩阵的特征分解可以用于优化二次方程 ,其中限制 。当x等于A的某个特征向量时,f将返回对应的特征值。在限制条件下,函数f的最大值是最大特征值,最小值是最小特征值。

半正定矩阵保证 ,正定矩阵保证

5、奇异值分解

每个实数矩阵都有一个奇异值分解,但不一定都有特征分解,如非方阵的矩阵没有特征分解

A是m×n矩阵,

A的奇异值:的特征值的平方根

的特征向量

D的对角线元素是A的奇异值

奇异值分解:

6、Moore-Penrose 伪逆

矩阵A的伪逆: ,其中对角矩阵D的伪逆是其非零元素取到数之后再转置得到的。

当矩阵A的列数多于行数时,使用伪逆求解线性方程是众多可能解法中的一种。特别地, 是方程所有可行解中欧几里得范数 最小的一个。

当矩阵A的行数多于列数时,可能没有解。在这种情况下,通过伪逆得到的x使得Ax和y的欧几里得距离 最小。

7、迹运算

优化问题  ,可通过特征分解求解,最优的d是 最大特征值对应的特征向量。(二次型,实对称矩阵,约束条件,最大特征向量对应二次型最大值)

8、行列式

行列式,det(A)是将一个方阵A映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积;如果行列式是1,那么这个转换保持空间体积不变。

发布了27 篇原创文章 · 获赞 2 · 访问量 203

猜你喜欢

转载自blog.csdn.net/weixin_43575791/article/details/105464314