玄学之深度学习学习之路——数学基础1--线性代数

范数

范数实际上就是定义了一种距离(将向量映射为非负值的标量), L^{p} 范数的数学定义为

                                                                              \left \| \boldsymbol{x} \right \|_{p}=\left ( \sum_{i}^{ }\left |x _{i} \right |^{p} \right )^{\frac{1}{p}}

范数满足以下三个性质:

f(\boldsymbol{x})=0\Rightarrow \boldsymbol{x}=0

f(\boldsymbol{x}+\boldsymbol{y})\leq f(\boldsymbol{x})+f(\boldsymbol{y})(三角不等式)

\forall \alpha \in \mathbb{R},f(\alpha \boldsymbol{x})=\left | \alpha \right |f(\boldsymbol{x})

L^{2}范数:p=2时,L^{2}范数称为欧几里得范数,表示向量的欧几里得距离。并且

                                                                          \left (\left \| \boldsymbol{x} \right \|_{2} \right )^{2}= \sum_{i}^{ }x _{i} ^{2}=\boldsymbol{x}^{T}\boldsymbol{x}

L^{2}范数的平方在计算上比L^{2}范数更方便,L^{2}范数对向量\boldsymbol{x}中每个元素的导数与整个向量有关,而L^{2}范数的平方则只取决于对应的元素。

L^{2}范数的平方当向量离原点很近时,其变化是十分缓慢的。

L^{1}范数:当机器学习问题只0和非0元素之间的差异非常重要时,L^{1}范数会是很有用的范数

                                                                                   \left \| \boldsymbol{x} \right \|_{1}=\sum_{i}^{ }\left | x_{i} \right |

L^{\infty }范数:也称为最大范数,表示向量中具有最大幅值的元素的绝对值

                                                                                  \left \| \boldsymbol{x} \right \|_{\infty }=\max_{i}\left | x_{i} \right |

Frobenius范数:有时需要衡量矩阵的大小,深度学习中常用Frobenius范数

                                                                                 \left \| \boldsymbol{A} \right \|_{F}=\sqrt{\sum_{i,j}^{ }a_{i,j}^{2}}

特征分解

                                                                                        \boldsymbol{Av}=\lambda \boldsymbol{v}

\boldsymbol{v}称为方阵\boldsymbol{A}的特征向量,\lambda称为方阵\boldsymbol{A}的特征值。

如果矩阵\boldsymbol{A}有n个线性无关的特征向量{ \boldsymbol{v_{1}},...,\boldsymbol{v_{n}}},对应的特征值为{ \lambda_{1},...,\lambda_{n}},另矩阵\boldsymbol{V}=\left [\boldsymbol{v_{1}},...,\boldsymbol{v_{n}} \right ],向量\boldsymbol{\lambda}=\left [ \lambda_{1} ,...,\lambda_{n}\right ]^{T},那么\boldsymbol{A}的特征分解为

                                                                              \boldsymbol{A}=\boldsymbol{V}diag(\boldsymbol{\lambda})\boldsymbol{V}^{-1}

\boldsymbol{A}是实对称矩阵,可以对其正交分解

                                                                                    \boldsymbol{A}=\boldsymbol{Q}\boldsymbol{\Lambda} \boldsymbol{Q}^{T}

\boldsymbol{Q}是正交矩阵。

奇异值分解

假设\boldsymbol{A}m\times n的矩阵,则\boldsymbol{A}可以分解成三个矩阵的乘积:

                                                                                 \boldsymbol{A}=\boldsymbol{UDV}^{T}

其中,\boldsymbol{U}m\times m的正交矩阵,其列向量称为左奇异向量\boldsymbol{V}n\times n的正交矩阵,其列向量称为右奇异向量\boldsymbol{D}m\times n的对角矩阵,其对角线上的元素称为矩阵\boldsymbol{A}奇异值

如何进行奇异值分解?令\boldsymbol{B=AA}^{T},则\boldsymbol{B}是一个实对称矩阵,可以对其正交分解得到矩阵\boldsymbol{U},左奇异向量对应\boldsymbol{B}的特征向量;令\boldsymbol{C}=\boldsymbol{A}^{T}\boldsymbol{A},则\boldsymbol{C}是一个实对称矩阵,可以对其正交分解得到矩阵\boldsymbol{V},右奇异向量对应\boldsymbol{C}的特征向量。

                                                     \boldsymbol{B=AA}^{T}=\boldsymbol{UDV}^{T}\boldsymbol{VD}^{T}\boldsymbol{U}^{T}=\boldsymbol{UDD}^{T}\boldsymbol{U}^{T}

                                                     \boldsymbol{C}=\boldsymbol{A}^{T}\boldsymbol{A}=\boldsymbol{VD}^{T}\boldsymbol{U}^{T}\boldsymbol{UDV}^{T}=\boldsymbol{VD}^{T}\boldsymbol{DV}^{T}

                                \boldsymbol{DD}^{T}=\begin{bmatrix} \sigma _{1}^{2}& 0 & 0 &0 \\ 0& \sigma _{2}^{2}& 0 & 0\\ 0& 0 & \ddots &0 \\ 0& 0 & 0 & \ddots \end{bmatrix}_{m\times m}          \boldsymbol{D}^{T}\boldsymbol{D}=\begin{bmatrix} \sigma _{1}^{2}& 0 & 0 &0 \\ 0& \sigma _{2}^{2}& 0 & 0\\ 0& 0 & \ddots &0 \\ 0& 0 & 0 & \ddots \end{bmatrix}_{n\times n}

Moore-Penrose伪逆

假设\boldsymbol{A}m\times n的矩阵,其Moore-Penrose伪逆\boldsymbol{A}^{+}满足\boldsymbol{AA}^{+}=\boldsymbol{I}_{m\times m}\boldsymbol{A}^{+}\boldsymbol{A}=\boldsymbol{I}_{n\times n}\boldsymbol{A}^{+}可以通过下面公式求得:

                                                                                \boldsymbol{A}^{+}=\boldsymbol{VD}^{+}\boldsymbol{U}^{T}

对角矩阵\boldsymbol{D}的伪逆\boldsymbol{D}^{+}是其非零元素倒数之后再转置得到的。

对于线性方程组\boldsymbol{Ax}=\boldsymbol{y},当列数多于行数时,可以使用伪逆求得一个解\boldsymbol{x}=\boldsymbol{A}^{+}\boldsymbol{y},该解是方程所有可行解中欧几里得范数最小的一个。当行数多于列数时,方程可能没有解,在这种情况下,通过伪逆得到的\boldsymbol{x}使得\boldsymbol{Ax}\boldsymbol{y}的欧几里得距离\left \| \boldsymbol{Ax}-\boldsymbol{y} \right \|_{2}最小。

迹运算

迹运算表示矩阵对角元素的和,即

                                                                                 \textup{Tr}(\boldsymbol{A})=\sum_{i}^{ }a_{i,i}

可以用迹运算表示矩阵\boldsymbol{A}的Frobenius范数

                                                                               \left \| \boldsymbol{A} \right \|_{F}=\sqrt{\textup{Tr}(\boldsymbol{AA}^{T})}

多个矩阵相乘的迹与其相乘的顺序无关

                                                                          \textup{Tr}(\prod_{i=1}^{n}\boldsymbol{F}_{i})=\textup{Tr}(\boldsymbol{F}_{n}\prod_{i=1}^{n-1}\boldsymbol{F}_{i})

猜你喜欢

转载自blog.csdn.net/hyhy12580/article/details/102602531