【从线性回归到BP神经网络】第二部分：线性回归

文章目录

本文主要参考文献如下：
1、吴恩达CS229课程讲义。
2、（美）S.Chatterjee等，《例解回归分析》（第2章），机械工业出版社。
3、周志华. 《机器学习》3.2.清华大学出版社。
4、（美）P.Harrington，《机器学习实战》人民邮电出版社。

1、代价函数

我们先考虑只有单个数据对的情况，即 ${\bf x}=[1,x_1,x_2,\ldots,x_n]$ 为输入的属性向量，其中 $n$ 为属性的个数， $y$ 为与 $\bf x$ 对应的输出函数值。我们希望能够用 $\bf x$ 的线性函数来预测 $y$ 的值，即
$\tag{1} \begin{aligned} h_{\theta}({\bf x})&=\theta_0+\theta_1x_1+\theta_2x_2+\ldots+\theta_nx_n\\ &=\sum_{j=1}^{n}\theta_jx_j\\ &={\bm \theta}^{\rm T}{\bf x}, \end{aligned}$ 这里， ${\bm \theta}=[\theta_0,\theta_1,\ldots,\theta_n]^{\rm T}$ 为参数向量。显然，我们希望通过选择合适的参数 ${\bm \theta}$ ，使得 $h_{\bm \theta}({\bf x})$ 能够尽量接近 $y$ 的值。
那么如何来定义“接近”的程度呢？采用的就是cost function（代价函数）。常用的一种cost function的定义，就是均方值
$\tag{2} J(\bm \theta)=\frac{1}{2}[h_{\theta}({\bm \theta})-y]^2$ 我们推广到有 $m$ 个数据对的情况，此时的代价函数为
$\tag{3} J(\bm \theta)=\frac{1}{2m}\sum_{i=1}^{m}[h_{\theta}({ {\bf x}^{(i)}})-y^{(i)}]^2.$

严格来说，根据第一部分，这里的分母的 $m$ 应该为 $m - 1$ 。

2、梯度下降法

多元函数 $J(\bm \theta)$ 的值会随着 $\bm \theta$ 的改变而改变。我们希望能够尽快找到使 $J(\theta)$ 最小的 $\bm \theta$ ，那么 $\bm \theta$ 应该往哪个方向变化， $J(\bm \theta)$ 的值能够下降得更快呢？
首先我们看”方向”这个词的含义。这里的方向，其实就是指每个参数， $\theta_j$ ，第一是变大还是变小（正 or 负），第二是变得快还是慢。以下图一维的情况来看，显然A点切线斜率比B点的大，因此下降得更快，而C点 $\theta_1$ 得值应该增大，而非减小。想象下如果换成多维情况，其实就是看每个参数应该变大还是变小，应该以多快速率变化（在学习率 $\alpha$ 一定的情况下）。如果想象从山顶往山下走（两个参数的情况），显然两个参数的正负和变化快慢，决定了下山路线的方向。
梯度下降法实际上就是选择下降最快方向的方法，即
$\tag{4} \theta_j:=\theta_j-\alpha\frac{\partial J(\bm \theta)}{\partial \theta_j}\quad j=0,1,\ldots,n.$
在这里插入图片描述
注意梯度下降法的特点：

梯度（切线斜率）越大，下降越快；梯度越小，下降越慢。
如果到了局部最优点（斜率为0），则不再变化。
所有 $\theta_j$ 的值要同时更新。

3、线性回归的梯度下降

回到我们的问题上来。我们是想找到(3)中代价函数的最小值，因此到我们设置好 $\bm \theta$ 的初始值之后，就开始用(4)更新 $\theta$ 值，逐渐逼近最优点。因此我们需要求得梯度，即
$\tag{5} \begin{aligned} \frac{\partial J({\bm \theta}) }{\partial \theta_j }&=\frac{1}{2m}\frac{\partial }{\partial \theta_j }\sum_{i=1}^{m}[h_{\theta}({ {\bf x}^{(i)}})-y^{(i)}]^2\\ &=\frac{1}{2m}\frac{\partial }{\partial \theta_j }\sum_{i=1}^{m}[\sum_{j=1}^{n}\theta_jx_j^{(i)}-y^{(i)}]^2\\ &=\frac{1}{m}\sum_{i=1}^{m}[\sum_{j=1}^{n}\theta_jx_j^{(i)}-y^{(i)}]\cdot x_j^{(i)}\\ &=\frac{1}{m}\sum_{i=1}^{m}[h_{\theta}{({\bf x}^{(i)})}-y^{(i)}]\cdot x_j^{(i)}\\ \end{aligned}$

4、矩阵形式表示 $m$ 个样本

为了编程实现时候方便，我们来看如何用矩阵形式同时处理 $m$ 个数据。我们可以得到 $\tag{6} {\bf X}=\left[\begin{aligned} {\bf x}^{ {(1)}\rm T}\\ {\bf x}^{ {(2)}\rm T}\\ \vdots\\ {\bf x}^{ {(m)}\rm T}\\ \end{aligned} \right]\in {\mathbb R}^{m\times (1+n)},{\bf y}=\left[\begin{aligned} { y}^{ {(1)}}\\ { y}^{ {(2)}}\\ \vdots\\ { y}^{ {(m)}}\\ \end{aligned} \right]\in {\mathbb R}^{m\times 1},{\bm \theta}=\left[\begin{aligned} \theta_0\\ \theta_1\\ \vdots\\ \theta_n\\ \end{aligned} \right]\in {\mathbb R}^{(n+1)\times 1}$ 因此，有估计值为
$\tag{7} \hat {\bf y}=\left[\begin{aligned} {\hat y}^{ {(1)}}\\ {\hat y}^{ {(2)}}\\ \vdots\\ {\hat y}^{ {(m)}}\\ \end{aligned} \right]={\bf X}{\bm \theta}$ 由此可以得到代价函数为
$\tag{8} \begin{aligned} J({\bm \theta})&=\frac{1}{2m}\| {\bf y}-\hat{\bf y}\|^2\\ &=\frac{1}{2m}({\bf y}-{\bf X}{\bm \theta})^{\rm T}({\bf y}-{\bf X}{\bm \theta}) \end{aligned}$ 因此， $\bm \theta$ 更新如下
$\tag{9} {\bm \theta}:={\bm \theta}-\frac{1}{m}[\alpha({\bf y}-\hat {\bf y})^{\rm T}{\bf X}]^{\rm T}\quad j=0,1,\ldots,n$
也就是说，对于输入的 $m$ 组特征样本 $\bf X$ ，我们先根据(7)在现有 $\bm \theta$ 情况下估计输出 $\hat y$ ，然后根据(9)来更新 $\bm \theta$ 。下面是一段MATLAB代码。

%学习过程
for cnt=1:N_Loop
     hat_yy=X_Train*theta;         							      %根据(7)估计输出
     tmp1=yy_Train-hat_yy;
     theta=theta+(alpha*tmp1'*X_Train/m)';                		  %根据(9)更新参数
end

5、线性回归的闭式解

除了采用梯度下降法，我们也可以对下面的优化问题寻求闭式解，即
$\tag{10} {\hat \bm \theta}^*=\min \limits_{\bm \theta} J(\bm \theta)$ 根据(8)，可以将该优化问题表示为
$\tag{11} {\hat \bm \theta}^*=\min \limits_{\bm \theta} \| {\bf y}-\hat{\bf y}\|^2.$ 进一步，由于
$\| {\bf y}-\hat{\bf y}\|^2=({\bf y}-{\bf X}{\bm \theta})^{\rm T}({\bf y}-{\bf X}{\bm \theta})$ 对其求导，可以得到
$\tag{12} \begin{aligned} \frac{\partial}{\partial \bm \theta} \| {\bf y}-\hat{\bf y}\|^2&=\frac{\partial}{\partial \bm \theta}({\bf y}-{\bf X}{\bm \theta})^{\rm T}({\bf y}-{\bf X}{\bm \theta})\\ &=2{\bf X}^{\rm T}({\bf X}{\bm \theta}-{\bf y})\in{\mathbb R}_{}^{} \end{aligned}$

我们考虑有向量 ${\bf x}\in {\mathbb R}^{n\times 1}$ 的标量函数 $f(\bf x)$ 为
$f({\bf x})={\bf x}^{\rm T}{\bf x}=x_1^2+x_2^2+\ldots+x_n^2$ 则其相对于 $\bf x$ 的梯度（导数）为列向量
$\begin{aligned} \frac{\partial f({\bf x})}{\partial {\bf x}}&=\left[\frac{\partial f({\bf x})}{\partial {x_1}},\frac{\partial f({\bf x})}{\partial {x_2}},\ldots,\frac{\partial f({\bf x})}{\partial {x_n}}\right]^{\rm T}\\ &=2{\bf x} \end{aligned}$ 若 ${\bf X}\in {\mathbb R}^{m\times n}$ ， ${\bm \theta}\in {\mathbb R}^{n\times 1}$ ，下面我们再来看 $1\times m$ 行向量
$\begin{aligned} {\bf z}&=({\bf X}{\bm \theta})^{\rm T}={\bm \theta}^{\rm T}{\bf X}^{\rm T}\\ \end{aligned}$ 相对于 $n\times 1$ 列向量 $\bm \theta$ 求导，显然求导后为 $\times m$ 矩阵，即
$\begin{aligned} \frac{\partial {\bf z}}{\partial {\bm \theta}}&={\bf X}^{\rm T} \end{aligned}$

令(12)等于零，就可以得到 $\bm \theta$ 最优解的闭式解，即
$\tag{13} \begin{aligned} {\bf X}^{\rm T}({\bf X}{\bm \theta}-{\bf y})=0 \end{aligned}$ 若 ${\bf X}^{\rm T}{\bf X}$ 满秩，可以得到
$\tag{14} {\hat \bm \theta}^*=({\bf X}^{\rm T}{\bf X})^{-1}{\bf X}^{\rm T}{\bf y}.$
显然(9)的梯度下降法和(14)的闭式解，都可以求得使得代价函数 $J$ 最小的参数 $\bm \theta$ 值。经常用梯度算法代替闭式解的原因，是如果数据量比较大，求解矩阵运算的计算量会太大。
一般来说，我们会采用相关系数来评价回归性能，相关系数定义见第一部分。

6、从概率的角度来理解代价函数

下面我们从概率的角度来分析，为什么我们选择用均方误差 $\|{\bf y}-\hat{\bf y}\|$ 作为代价函数（即LMS算法）是合理的。
我们先来考虑单个数据的情况。对于第 $i$ 个数据，有
$\tag{15} y^{(i)}={\bm \theta}^{\rm T}{\bf x}^{(i)}+\epsilon^{(i)},$ 这里 $\epsilon^{(i)}\sim {\mathcal N}(0,\sigma^2)$ 为误差项。因此，我们可以得到 $y^{(i)}$ 的条件概率为
$\tag{16} p(y^{(i)}|{\bf x}^{(i)};{\bm \theta})=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{[y^{(i)}-{\bm \theta}^{\rm T}{\bf x}^{(i)}]^2}{2\sigma^2}\right)$ 注意这里 $\bm \theta$ 是参数而非随机变量。
下面来考虑多个样本数据的情况。对于固定的 $\bm \theta$ ，在给定 $\bf X$ 的情况下， $\bf y$ 的概率密度函数，我们称之为似然函数，为
$\tag{17}\begin{aligned} L({\bm \theta})&=\prod_{i=1}^{m}p(y^{(i)}|{\bf x}^{(i)};{\bm \theta})\\ &=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{[y^{(i)}-{\bm \theta}^{\rm T}{\bf x}^{(i)}]^2}{2\sigma^2}\right). \end{aligned}$ 下面我们用最大似然准则，这意味着我们选择使得(17)中似然函数最大的 $\bm \theta$ 。事实上，我们也可以最大化似然函数的某个严格单调递增的函数，比如对数似然，显然可以把连乘运算变成连加运算
$\tag{18} \begin{aligned} \ell(\bm \theta)&=\log L(\bm \theta)\\ &=\log \prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{[y^{(i)}-{\bm \theta}^{\rm T}{\bf x}^{(i)}]^2}{2\sigma^2}\right)\\ &=\sum_{i=1}^{m}\log\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{[y^{(i)}-{\bm \theta}^{\rm T}{\bf x}^{(i)}]^2}{2\sigma^2}\right)\\ &=m\log\frac{1}{\sqrt{2\pi}}-\frac{1}{2\sigma^2}\sum_{i=1}^{m}[y^{(i)}-{\bm \theta}^{\rm T}{\bf x}^{(i)}]^2 \end{aligned}$ 因此，最大化 $\ell(\bm \theta)$ 事实上就是最小化
$\tag{19} \frac{1}{2}\sum_{i=1}^{m}[y^{(i)}-{\bm \theta}^{\rm T}{\bf x}^{(i)}]^2$ 即（3）中的均方差。