什么是感知机——图文并茂，由浅入深

文章目录

什么是感知机——图文并茂，由浅入深

引言

生活中常常伴随着各种各样的逻辑判断，比如看到远方天空中飘来乌云，打开手机看到天气预报说1小时后40%的概率下雨，此时时候我们常常会做出等会下雨，出门带伞的判断。

上述思考过程可以抽象为一个”与“的”神经逻辑“。当”看到乌云“和”天气预报40%下雨“同时满足的时候，我们才会做出”等会下雨，出门带伞“的判断；假如只看到”乌云“，但天气预报说0%的概率下雨，抑或是没看见乌云，天气预报40%的概率下雨，我们会做出等下不会下雨的判断。

现在我们抽象一下刚刚的过程。

逻辑的输入有两个：看见乌云、天气预报。经过逻辑判断，决定是否带伞。

在判断时，有人会更加相信肉眼所见的乌云，天气预报只是辅助，毕竟天气预报经常报不准；有人更加信任天气预报，心想谁知道这个乌云会不会等会飘走呢，有云又未必下雨。因此我们引入”信任度“这个概念。我更加信任天气预报，如果完全相信是1（也可以是2、3、3.4等等），那么我给”天气预报“0.7的信任度，给”看见乌云“0.3的信任度。

相信读者一定有了一定概念，但是目前这样笼统的”判断“和”信任度“没有办法实际解决问题。主要有以下疑问：

”信任度“是如何作用于判断呢？
”判断”是如何进行的？
笔者讲的这个判断和感知机什么关系？

下面我们将问题数学化，来定量得确定出这其中的逻辑关系，这个过程通常被叫做“数学建模”。

生活中有许许多多的判断，有的如同上述是否带伞一样简单，有的如同解答高数题一样复杂。这些判断都是根据许许多多外界环境输入到我们人脑中的信号，经过头脑中复杂的神经网络得出来的。

上面的例子是一个非常简单的判断，可以想象如果这种简单的判断以成千上万的数量组合，便可以形成一个非常庞大且复杂的“神经网络”，能够处理的事情。组成这张神经网络的单位，我们称之为“神经元”，粗略得说，我们也可以叫他“感知机”。

感知机的引入

宝宝版

分别用 $x_1$ 表示“看见乌云”， $x_2$ 表示“天气预报”。如果看见了乌云，那么 $x_1=1$ 否则 $x_1=0$ ；同样的，如果天气预报说40%概率下雨， $x_2=1$ ，如果是0%的概率下雨， $x_2=0$ 。

用 $y$ 表示“是否带伞”，带伞时 $y = 1$ ，否则 $y = 0$ 。

为了叙述方便，我们这里把0.3、0.7信任度，称为加权。现在我们引入“加权和” $a$ 。他是输入变量的加权和。
$a=0.3x_1 + 0.7x_2$
$x_1,x_2$ 的可能取值总共只有4个，我们不妨把他们列举出来，暂且把表格称为真值表吧：(此处，我们认为，只有看到乌云和天气预报同时满足，我们才带伞)

$x_1$	$x_2$	$a$	$y$
0	0	0	0
1	0	0.3	0
0	1	0.7	0
1	1	1	1

观察表格可以指定如下规则，用于判断：当 $a$ 大于某值 $\theta$ ，时， $y$ 取1，也就是带伞。
$\left\{\begin{matrix} 0\quad 0.3x_1 + 0.7x_2\le \theta \\ 1\quad 0.3x_1 + 0.7x_2> \theta \end{matrix}\right.$
通过观察真值表，我们可以非常容易得到 $\theta$ 的取值，0.8或是0.9都可以，取值范围如下：
$\theta>0.7$
至此现在我们把“判断”成功数学建模，如下：

至此，一个完整的，具有实际意义的感知机建造完成，上图中间的圆圈便是感知机，它有两个输入信号，一个输出信号。我把他命名为“宝宝感知机”。

青年版

宝宝感知机的成长

宝宝感知机的判断逻辑是：
$\left\{\begin{matrix} 0\quad 0.3x_1 + 0.7x_2\le \theta \\ 1\quad 0.3x_1 + 0.7x_2> \theta \end{matrix}\right.$
现在我们对它简单变换下：
$\left\{\begin{matrix} 0\quad 0.3x_1 + 0.7x_2+(-\theta)\le0 \\ 1\quad 0.3x_1 + 0.7x_2+(-\theta)> 0 \end{matrix}\right.$
我们令 $b=(-\theta)$ ，公式可以进一步化简：
$\left\{\begin{matrix} 0\quad 0.3x_1 + 0.7x_2+b\le0 \\ 1\quad 0.3x_1 + 0.7x_2+b> 0 \end{matrix}\right.$
紧接着，感知机示意图如下：

还记得我们在引入宝宝感知机的时候，引入的加权和变量 $a$ 嘛，
$a=0.3x_1 + 0.7x_2$
此时，我们不如再次借助它的概念来清晰化感知机的概念，我们令a新的表达如下：
$a=0.3x_1 + 0.7x_2+b$
则逻辑判断表述可以简化为：
$\left\{\begin{matrix} 0\quad a\le0 \\ 1\quad a> 0 \end{matrix}\right.$

此处我们用符号 $h$ 代替 $f$ ，仅仅是符号的改变，不改变含义。

画出简化后的感知机示意图会让概念更清晰：

至此，一个完整的，具有实际意义的感知机建造完成，上图中求和与 $h (a)$ 一起构成感知机，它有三个输入信号，一个输出信号。我把他命名为“青年感知机”。

老夫聊发少年狂版

要开始抽象介绍概念喽。

在深度学习领域，我们对上面提到的“信任度”、输入信号、输出信号等等都有专用的名词，现在我们来介绍下。首先把先前讨论的“信任度”0.3和0.7表示为： $w_1，w_2$ 。

总结一下上述的讨论：
$\left\{\begin{matrix} 0\quad a\le0 \\ 1\quad a> 0 \end{matrix}\right.$

$a=w_1x_1 + w_2x_2+b$

变量	名称
$w$	权重	权重越高，信号在判断中的作用越大
$b$	偏置	依据判断结果进行调整
$h (a)$	激活函数	有多种选择，此处举例使用的是阶跃函数

至此完整的感知机便呈现在大家眼前，概念和专业名称均已阐明。

一般时候，我们把感知机表示成如下形式：

激活函数

激活函数可以有多种选择，上述我们举例使用的是阶跃函数，表达式如下：
$\left\{\begin{matrix} 0\quad a\le0 \\ 1\quad a> 0 \end{matrix}\right.$

此外还有sigmoid、ReLu可供选择。以sigmoid为例，表达式为：
$h(x)=\frac{1}{1+\operatorname{exp}(-x)}$

刚刚入门深度学习，可以先不去细究为什么要引入不同的激活函数，sigmoid函数作用是什么，怎么长得那么奇怪，相对于阶跃函数的优势在哪，在后面的学习中会体会到激活函数的作用。只需要知道，此处激活函数有多种选择就可以。

感知机的应用

与门

真值表如下：

$x_1$	$x_2$	$y$
0	0	0
1	0	0
0	1	0
1	1	1

我们现在对着感知机的图，确认取值。

权重值和偏置 $w_1,w_2,b$ 有多种取值方式，比如分别取：0.5，0.5，-0.7.

$x_1$	$x_2$	$a$	$y$
0	0	0	0
1	0	-0.2	0
0	1	-0.2	0
1	1	0.3	1

也可以分别取：1，1，-1.3.

$x_1$	$x_2$	$a$	$y$
0	0	0	0
1	0	-0.3	0
0	1	-0.3	0
1	1	0.7	1

或门

真值表如下：

$x_1$	$x_2$	$y$
0	0	0
1	0	1
0	1	1
1	1	1

权重值和偏置 $w_1,w_2,b$ 有多种取值方式，比如分别取：0.5，0.5，-0.2.

$x_1$	$x_2$	$a$	$y$
0	0	0	0
1	0	0.3	1
0	1	0.3	1
1	1	0.7	1

感知机与深度学习

感知机与神经网络

单一感知机只能实现简单的功能，但是数以万计、数以亿计的感知机配合起来，可以处理的问题就不那么简单喽。我们把感知机组成的整体，称为“神经网络”

感知机和深度学习什么关系呢？

以感知机的应用部分的“与门”为例，我们根据与门的真值表，人工给他确定了权重和偏置，让感知机实现了与门的功能。可是数以万计的感知机组成的网络，会有难以计数的权重和偏置，这个时候人工确认它们的取值不再现实。深度学习算法便可以解决这个问题，深度学习会根据真值表，学习出一个可能的权重和偏置，来实现与门的功能，不再需要人来确认参数。