玄学之深度学习学习之路——数学基础1--线性代数

范数

范数实际上就是定义了一种距离（将向量映射为非负值的标量）， $L^{p}$ 范数的数学定义为

$\left \| \boldsymbol{x} \right \|_{p}=\left ( \sum_{i}^{ }\left |x _{i} \right |^{p} \right )^{\frac{1}{p}}$

范数满足以下三个性质：

① $f(\boldsymbol{x})=0\Rightarrow \boldsymbol{x}=0$

② $f(\boldsymbol{x}+\boldsymbol{y})\leq f(\boldsymbol{x})+f(\boldsymbol{y})$ （三角不等式）

③ $\forall \alpha \in \mathbb{R},f(\alpha \boldsymbol{x})=\left | \alpha \right |f(\boldsymbol{x})$

$L^{2}$ 范数：当 $p=2$ 时， $L^{2}$ 范数称为欧几里得范数，表示向量的欧几里得距离。并且

$\left (\left \| \boldsymbol{x} \right \|_{2} \right )^{2}= \sum_{i}^{ }x _{i} ^{2}=\boldsymbol{x}^{T}\boldsymbol{x}$

$L^{2}$ 范数的平方在计算上比 $L^{2}$ 范数更方便， $L^{2}$ 范数对向量 $\boldsymbol{x}$ 中每个元素的导数与整个向量有关，而 $L^{2}$ 范数的平方则只取决于对应的元素。

$L^{2}$ 范数的平方当向量离原点很近时，其变化是十分缓慢的。

$L^{1}$ 范数：当机器学习问题只0和非0元素之间的差异非常重要时， $L^{1}$ 范数会是很有用的范数

$\left \| \boldsymbol{x} \right \|_{1}=\sum_{i}^{ }\left | x_{i} \right |$

$L^{\infty }$ 范数：也称为最大范数，表示向量中具有最大幅值的元素的绝对值

$\left \| \boldsymbol{x} \right \|_{\infty }=\max_{i}\left | x_{i} \right |$

Frobenius范数：有时需要衡量矩阵的大小，深度学习中常用Frobenius范数

$\left \| \boldsymbol{A} \right \|_{F}=\sqrt{\sum_{i,j}^{ }a_{i,j}^{2}}$

特征分解

$\boldsymbol{Av}=\lambda \boldsymbol{v}$

$\boldsymbol{v}$ 称为方阵 $\boldsymbol{A}$ 的特征向量， $\lambda$ 称为方阵 $\boldsymbol{A}$ 的特征值。

如果矩阵 $\boldsymbol{A}$ 有n个线性无关的特征向量{ $\boldsymbol{v_{1}}$ ,..., $\boldsymbol{v_{n}}$ }，对应的特征值为{ $\lambda_{1}$ ,..., $\lambda_{n}$ }，另矩阵 $\boldsymbol{V}=\left [\boldsymbol{v_{1}},...,\boldsymbol{v_{n}} \right ]$ ，向量 $\boldsymbol{\lambda}=\left [ \lambda_{1} ,...,\lambda_{n}\right ]^{T}$ ,那么 $\boldsymbol{A}$ 的特征分解为

$\boldsymbol{A}=\boldsymbol{V}diag(\boldsymbol{\lambda})\boldsymbol{V}^{-1}$

若 $\boldsymbol{A}$ 是实对称矩阵，可以对其正交分解

$\boldsymbol{A}=\boldsymbol{Q}\boldsymbol{\Lambda} \boldsymbol{Q}^{T}$

$\boldsymbol{Q}$ 是正交矩阵。

奇异值分解

假设 $\boldsymbol{A}$ 是 $m\times n$ 的矩阵，则 $\boldsymbol{A}$ 可以分解成三个矩阵的乘积：

$\boldsymbol{A}=\boldsymbol{UDV}^{T}$

其中， $\boldsymbol{U}$ 是 $m\times m$ 的正交矩阵，其列向量称为左奇异向量， $\boldsymbol{V}$ 是 $n\times n$ 的正交矩阵，其列向量称为右奇异向量， $\boldsymbol{D}$ 是 $m\times n$ 的对角矩阵，其对角线上的元素称为矩阵 $\boldsymbol{A}$ 的奇异值。

如何进行奇异值分解？令 $\boldsymbol{B=AA}^{T}$ ，则 $\boldsymbol{B}$ 是一个实对称矩阵，可以对其正交分解得到矩阵 $\boldsymbol{U}$ ，左奇异向量对应 $\boldsymbol{B}$ 的特征向量；令 $\boldsymbol{C}=\boldsymbol{A}^{T}\boldsymbol{A}$ ，则 $\boldsymbol{C}$ 是一个实对称矩阵，可以对其正交分解得到矩阵 $\boldsymbol{V}$ ，右奇异向量对应 $\boldsymbol{C}$ 的特征向量。

$\boldsymbol{B=AA}^{T}=\boldsymbol{UDV}^{T}\boldsymbol{VD}^{T}\boldsymbol{U}^{T}=\boldsymbol{UDD}^{T}\boldsymbol{U}^{T}$

$\boldsymbol{C}=\boldsymbol{A}^{T}\boldsymbol{A}=\boldsymbol{VD}^{T}\boldsymbol{U}^{T}\boldsymbol{UDV}^{T}=\boldsymbol{VD}^{T}\boldsymbol{DV}^{T}$

$\boldsymbol{DD}^{T}=\begin{bmatrix} \sigma _{1}^{2}& 0 & 0 &0 \\ 0& \sigma _{2}^{2}& 0 & 0\\ 0& 0 & \ddots &0 \\ 0& 0 & 0 & \ddots \end{bmatrix}_{m\times m}$ $\boldsymbol{D}^{T}\boldsymbol{D}=\begin{bmatrix} \sigma _{1}^{2}& 0 & 0 &0 \\ 0& \sigma _{2}^{2}& 0 & 0\\ 0& 0 & \ddots &0 \\ 0& 0 & 0 & \ddots \end{bmatrix}_{n\times n}$

Moore-Penrose伪逆

假设 $\boldsymbol{A}$ 是 $m\times n$ 的矩阵，其Moore-Penrose伪逆 $\boldsymbol{A}^{+}$ 满足 $\boldsymbol{AA}^{+}=\boldsymbol{I}_{m\times m}$ ， $\boldsymbol{A}^{+}\boldsymbol{A}=\boldsymbol{I}_{n\times n}$ ， $\boldsymbol{A}^{+}$ 可以通过下面公式求得：

$\boldsymbol{A}^{+}=\boldsymbol{VD}^{+}\boldsymbol{U}^{T}$

对角矩阵 $\boldsymbol{D}$ 的伪逆 $\boldsymbol{D}^{+}$ 是其非零元素倒数之后再转置得到的。

对于线性方程组 $\boldsymbol{Ax}=\boldsymbol{y}$ ，当列数多于行数时，可以使用伪逆求得一个解 $\boldsymbol{x}=\boldsymbol{A}^{+}\boldsymbol{y}$ ，该解是方程所有可行解中欧几里得范数最小的一个。当行数多于列数时，方程可能没有解，在这种情况下，通过伪逆得到的 $\boldsymbol{x}$ 使得 $\boldsymbol{Ax}$ 和 $\boldsymbol{y}$ 的欧几里得距离 $\left \| \boldsymbol{Ax}-\boldsymbol{y} \right \|_{2}$ 最小。