概述
本文介绍在机器学习过程中最基础的线性代数知识。
矩阵
定义
A=⎣⎡147258369⎦⎤
这就是一个矩阵,矩阵有3行3列,一般这样描述矩阵:
m行∗n列。
下面是矩阵的一些表示方法及含义:
- 一般采用大写字母表示矩阵。
-
R4∗2代表的是所有
4行∗2列 的矩阵。
-
A2,1代表第二行第一列的元素,在上面的矩阵中指的是数字4。数学中下标从1开始,而机器学习应用中下标从0开始。
向量
向量是只有一列的矩阵,例如
y=⎣⎢⎢⎡1234⎦⎥⎥⎤,就是一个向量。
向量使用小写字母表示,如上所示y是一个4维的向量,
yi表示第i个元素。
加法
矩阵相加有个前提,维度必须一致,原理是对应位置的数字相加即可,如下所示:
[acbd]+[egfh]=[a+ec+gb+fd+h]
乘法
矩阵*实数
矩阵与实数相乘,原理是矩阵中的每个元素与实数相乘即可,如下所示:
[acbd]∗x=[a∗xc∗xb∗xd∗x]
除法也是类似的,原理是矩阵中的每个元素与实数相除即可,如下所示:
[acbd]/x=[a/xc/xb/xd/x]
矩阵*矩阵
先看一下矩阵与向量的乘法,前提是矩阵的列数与向量的行数必须一致,
假设矩阵是
m∗n,向量是n行,则计算过程为:
- 矩阵第一行的每个元素与向量的每个元素相乘求和作为结果矩阵的第一行的数据。
- 矩阵第二行的每个元素与向量的每个元素相乘求和作为结果矩阵的第二行的数据。
- 依次处理剩余的行,得到一个m行的矩阵。
⎣⎡acebdf⎦⎤∗[xy]=⎣⎡a∗x+b∗yc∗x+d∗ye∗x+f∗y⎦⎤
矩阵与矩阵的乘法,前提是第一个矩阵的列数与第二个矩阵的行数必须一致,
假设两个矩阵分别是
A=m∗n
B=n∗x,则结果是
C=m∗x的矩阵,计算过程如下:
- 把B看成是x个向量组成的,先用A乘以B的第一列,作为结果的第一列。
- 然后用A乘以B的第二列,作为结果的第二行。
- 依次类推,最终得到一个
m∗x的矩阵。
⎣⎡acebdf⎦⎤∗[xyjh]=⎣⎡a∗x+b∗yc∗x+d∗ye∗x+f∗ya∗j+b∗hc∗j+d∗he∗j+f∗h⎦⎤
应用
针对于矩阵乘法的计算原来,可以把它应用到线性回归上,比如根据房子大小求房子价格的评估函数为
h(x)=−40+0.25x,现在有4个房子,大小分别为
110,120,300,410,求这4个房子的价格,就可以使用矩阵乘法实现:
⎣⎢⎢⎡1111110120300410⎦⎥⎥⎤∗[−400.25]=⎣⎢⎢⎡−40+110∗0.25−40+120∗0.25−40+300∗0.25−40+410∗0.25⎦⎥⎥⎤
如果有还有一个评估函数是
h(x)=−30+0.19x,则使用矩阵表示:
⎣⎢⎢⎡1111110120300410⎦⎥⎥⎤∗[−400.25−300.19]=⎣⎢⎢⎡−40+110∗0.25−40+120∗0.25−40+300∗0.25−40+410∗0.25−30+110∗0.19−30+120∗0.19−30+300∗0.19−30+410∗0.19⎦⎥⎥⎤
特性
矩阵乘法不满足交换律,即
A∗B=B∗A
满足结合律:即
A∗B∗C=A∗(B∗C)
任何实数乘以1都不变,1称为单位数字,矩阵中也有单位矩阵:
I=⎣⎡100010001⎦⎤
单位矩阵的对角线为1,其余位置都是0,单位矩阵满足条件
A∗I1=I2∗A=A
需要注意的是此处的两个I都是单位矩阵,但是有所不同,假设A为
m∗n的矩阵,如果
A∗I1=A则
I1必须是
n∗n的矩阵;如果使
I2∗A=A则
I2必须是
m∗m的矩阵。
逆运算
除了0之外,实数都存在一个倒数,两者乘积为1,例如
3∗(3−1)=1,大部分矩阵也存在这样的逆矩阵使
A∗A−1=I,I是单位矩阵。
不存在逆矩阵的矩阵称之为奇异矩阵、退化矩阵。
转置
矩阵的转置就是把行列互换,A的转置使用
AT表示。
A=[adbecf]
AT=⎣⎡abcdef⎦⎤
满足
Ai,j=Aj,iT,比如
A1,2=b,A2,1T=b。
至此为止,线性代数相关知识介绍完毕,感谢吴恩达老师。