机器学习介绍（下）

紧接机器学习介绍（上），当 x 和 y 中间有比较复杂的关系时，对 Linear 的 Model 来说，x 跟 y 的关系就是一条直线，随著 x 越来越高，y 就应该越来越大，你可以设定不同的 w 改变这条线的斜率，也可以设定不同的 b 改变这一条蓝色的直线跟 y 轴的交叉点，但是无论你怎么改 w 跟 b ，它永远都是一条直线，永远都是 x 越大， y 就越大，前一天观看的人数越多，隔天的观看人数就越多。

但是现实世界并不是这个样子，也许成正比，还有可能存在成反比的情况，比如周五周六大家都不想看学习视频，可是周一又要开始上课，那周日观看人次就会明显升高。所以仅仅是改变 w 和 b 是不会把蓝色曲线构造成红色曲线的样子。所以我们需要一个更复杂、更有弹性的含未知数函数。

蓝色 Function 替代之前的线性函数：

当输入的值,当 x 轴的值小于某一个阈值的时候,它是某一个定值；
大于另外一个阈值的时候又是另外一个定值；
中间有一个斜坡

蓝色 Function “0” 是一条直线，是为了拟合红色 Function 的 bias（红线和 y 轴交界点）。
蓝色 Function “1” 是为了拟合红色 Function 的第一段上升。斜坡的起点设在红色 Function 的起始的地方，然后斜坡的终点设在第一个转角处。只需要调整 “1” 和红色的 Function 斜率一样即可。
蓝色 Function “2” 是为了拟合红色 Function 的下降段。“2” 的斜坡就在红色 Function 的第一个转折点到第二个转折点之间。
蓝色 Function “3” 是为了拟合第二段上升。起点在红色 Function 的第二个转折点，斜率与其保持一致。

通过上面设置不同的蓝色 Function，0+1+2+3 就可以拟合出红色 Function。

如果我们的目标函数不是一个折线段，而是一个曲线呢？没关系！可以在曲线上选择一定的采样点，只要采样点足够多，就可以近似曲线。所以只要蓝色 Function 足够多，就可以拟合出任意一个函数！

但是这个蓝色的折现好像不太容易去写出表达式，但是我们找到一个名为 Sigmoid Function 用来逼近蓝色折线（其实蓝色折线也有名字叫做 Hard Sigmoid）。

sigmoid： $y=c\frac{1}{1+e^{-(b+wx)}}$

改变 w 就会改变斜率，改变斜坡的坡度
改变 b 就可以把这一个 Sigmoid Function 左右移动
改变 c 就可以改变它的高度

那么先前的红色 Function 就可以用 sigmoid 来拟合： $y=b+\sum_{i}c_{i}\ sigmoid(b_{i}+w_{i}x)$

之前我们看到过使用多个 Feature 来代替一个 x 的函数预测更佳，所以我们可以改写 Function ：

$y=b+\sum_{i}c_{i}\ sigmoid(b_{i}+\sum_{j}w_{ij}x_{j})$

我们画一下图看一下 y 整个流程是怎样的，我们以 i=3，j=3 为例。

蓝色虚线框就是 $b_{i}+\sum_{i}w_{ij}x_{j}$ 部分，我们以 i=1为例： $b_{1}+w_{11}x_{1}+w_{12}x_{2}+w_{13}x_{3}$ 。特别说明一下 $w_{ij}$ 下标 j 代表的是 feature，不要搞反（神经网络里 j 是 feature，i 是神经元节点）