在卷积神经网络中,神经元的感受野、有效视野和投射野是什么?

                                                              摘要

本文详细地解释了卷积神经网络(CNN)在不同层、卷积或集中的接收场、有效接收场和神经元的投影场。虽然我们在这里的重点是CNNS,但是相同的操作,但是按照相反的顺序,可以用来计算去卷积神经网络的这些量。这些是重要的概念,不仅用于更好地理解和分析卷积和去卷积网络,而且还用于优化它们在真实世界应用中的性能。

接收场(RF):在神经元连接到前一层的输出体积上的局部区域(包括其深度)。自Hubel和Wiesel[1]的研究以来,该术语在神经科学中很普遍,在该研究中,它们建议在视觉皮层的早期视觉层中检测局部特征,然后逐渐地组合以分层方式产生更复杂的图案,作为示例,假设输入的RGB图像到CNN具有大小[32或32或3]。对于5或5的滤波器尺寸,第一卷积层中的每个神经元将被连接到输入体积中的[5或5或3]区域。因此,需要学习总共5个或5个或3个=75个权重(1个偏置参数)。注意,RF是3D张量,其深度等于上一层中的体积的深度。这里,为了简单起见,我们放弃了计算中的深度。可调节神经元活动的输入图像的范围。这里,我们关注的是erf计算。值得注意的是,erf和rf有时在计算机视觉社区中可互换使用(因此混淆)。投射场(PF):是神经元向其输出[3]输出的一组神经元。图1说明了这些定义 。

在卷积神经网络[2]中,神经元的erf指示由滤波器考虑输入图像的哪个区域。计算erf的大小将有助于使用域知识来选择合适的过滤器大小以提高cnns的性能。有两种方法可以计算erf大小:1)自下而上,2)自上而下。两种方式都产生相同的结果。然而,每种方法的中间值在每种情况下具有不同的含义。图2.上列所示网络ERF计算的自下而上方法示例。红色区域是下层的ERF。黄色和蓝色是不重叠的区域,用来表示步幅如何影响附加区域的计算。在本例中,在第一个池之后,每个额外的过滤器都会向ERF添加2个像素。在第二个池之后,每个额外的过滤器增加4个像素到ERF。

2.1。自下而上的方法是计算在输入图像上投影的层k上的神经元的ERF的方法。假设Rk是层k的神经元的ERF。给定先前层RK的ERF,其中R0=1是输入图像层的ERF,在当前层RK处的神经元的ERF可以通过将非重叠区域A添加到RK或1来计算:

让fk表示层k的过滤器尺寸。存在(fk−1)个彼此重叠的过滤器。由于过滤器可以以大于1的步幅卷积,因此它可以显著增加非重叠区域。因此,需要考虑每个额外滤波器贡献给erf的像素数。由于下层的跨度也会影响较高层的erf,所以必须累加所有层的像素贡献。因此,非重叠面积计算如下:

在此方法中的ERF的计算是通过计算在下层j上投影的层k处的RFa神经元来完成的,其中最后一层的rf将是ERf。给定较高层Rk,j1的神经元的RF,如果没有重叠(即,步幅相等的滤波器大小),则当前层的RF是:

其中FJ1是较高层的过滤器尺寸。当j=k时,RF为1。当滤波器相互重叠时,必须从值中减去重叠区域。想象下一个过滤器,然后在它之后放置的每个过滤器都会与先前放置的过滤器重叠。由于较高层的RF是向下投影的,相互重叠的滤波器数目将只是较高层的RF减去1:

随后放置的滤波器将由步长移动,因此重叠区域取决于滤波器的大小和步长。更大的跨越式发展将导致更少的重叠。较大的过滤器会导致更多的重叠。每个滤波器的重叠面积将是较高层Sj 1的滤波尺寸和步长的差异: 

有了重叠滤波器的数目和每个滤波器重叠的面积,就可以通过将方程4、5和6组合起来计算当前层的RF:

展开和简化上述方程给出了最后的自顶向下方程: 

在分析过程中,自顶向下的方法是很有帮助的,因为它可以较快地计算出来。另外,给定过滤器上的一个点,就可以推测出对其输出有贡献的节点。对于反卷积网络,可以采用自顶向下的方法来控制输出图像的分辨率。因此,与其使用颠倒的CNN层,反卷积层可以设计成包含有关问题的任何领域知识。图4和图5显示了RF投影回低层的进展情况。 

2.3.本文以魏氏等人的CNN为例,计算了神经元的ERF,[4]。在他们的论文中,魏等人。提出了一种位姿估计方法(称为卷积位姿机)。图6显示了最初的体系结构。这里,我们集中于计算图7所示的部分网络的ERF,省略了1x1过滤器。自下而上的方法:每个层的ERF是逐步计算的,同时跳过1×1滤波器,因为它们对ERF大小没有任何影响。根据等式3,图7中计算架构ERF的过程如下所示: 

自顶向下的方法:这里,ERF是分别计算每一层.因此,对于具有n层的网络,需要将n传递回图像。换句话说,中间数不能重复使用。ERF的计算过程 

3.在本节中,我们讨论了神经元的PF大小的计算。对于部分1中的示例,假设10个大小为5的滤波器,并且在第一卷积层中跨越等于5,每个图像像素(即,输入神经元和在每个R、G或B信道中)的PF将是1或1或10。请注意,此计算独立于筛选器大小,但如下所示,取决于步幅大小。此外,注意到与RF的计算一样,也有深度分量。为了简单起见,我们放弃了以下方面的深度。 

投影场的大小可以通过将滤波器滑动到一个区域来计算,并在每个神经元与滤波器重叠时更新它的计数器(图10,11)。然而,滑动滤波器容易出错,很难跟踪x和y方向上的值。图8和图9显示了确定射影场的一种更简单的方法。 

在步幅为1的情况下,直接PF的大小与下一层的过滤器大小相同。例如,如果滤波器大小为3×3,则一个神经元将影响输出滤波器映射中的3×3节点。对于上述例子,假设第一卷积层中有10个滤波器,则每个图像像素(即输入神经元和每个r、g或b通道)的PF为3×3×10。角和边缘的像素会有稍小的PFS。这里,为了简单起见,我们假设输入图像为零填充。当步长大于1时,一些神经元的PFS要比其他神经元大。例如,对于5×5和2的滤波器大小,中心神经元(参见图8)的PF为3×3。中心神经元x轴和y轴上的PFS分别为3×2和2×3。中心神经元对角线的PF大小为2×2。根据上面的分析(参见图10、11和9),CNN层k层节点的投影字段有四对值:

其中FK1和SK 1是滤波器的大小和跨出的下一层。根据方程11,如果剩余的分数为零,则所有节点的射影场大小相等。否则,根据节点的位置,投影字段大小将有所不同。换句话说,当分数不产生整数值时,下一层节点的影响就会有差异。这也许是为什么研究人员倾向于在卷积层中不使用大于1的步幅(或者在池层中使用的跨距等于滤波器的大小)。然而,目前尚不清楚这种差距是否会造成任何实际问题。反式网是CNN的反向版本。因此,可以用ERF公式计算它们的射影场。同样,它们的ERF与CNN中的射影场相同。

CNN:

神经网络的基本原理是仿射变换:接收向量作为输入,并与矩阵相乘产生输出(通常在通过非线性传递结果之前向输出添加一个偏置向量)。这适用于任何类型的输入,无论是图像、声音剪辑还是无序的特征集合:无论它们的维数如何,它们的表示都可以在转换之前被压平成向量。 

图像,声音剪辑和许多其他类似的数据有一个固有的结构。更正式地说,它们共享以下重要属性: 

它们被存储为多维数组。它们具有一个或多个轴的排序问题(例如,图像的宽度和高度轴,声音剪辑的时间轴)。·一个轴,称为通道轴,用于访问数据的不同视图(例如,彩色图像的红色、绿色和蓝色通道,或立体声音轨的左、右通道)。 

当应用仿射变换时,这些属性没有被利用;实际上,所有的轴都以相同的方式处理,并且不考虑拓扑信息。尽管如此,利用数据的隐式结构可以证明在解决一些任务(如计算机视觉和语音识别)方面非常方便,在这些情况下最好保留它。这就是离散的卷积来起作用的地方。 

离散卷积是保持这种排序概念的线性变换。它是稀疏的(只有少数输入单元有助于给定的输出单元)并且重新使用参数(相同的权重被应用于输入中的多个位置)。 

图1.1提供了离散卷积的示例。蓝色栅格被称为输入特征图。为了保持绘图简单,表示单个输入特征映射,但将多个特征映射叠加到另一个上是不常见的。1的内核(阴影区域)在输入特征映射上滑动。在每个位置,计算内核的每个元素与它重叠的输入元素之间的乘积,并将结果相加,以获得当前位置中的输出。可以使用不同的内核重复该过程,以根据需要形成许多输出特征图(图1.3)。此过程的最终输出称为输出特征映射。2如果存在多个输入特征映射,则内核必须是三维的,或者,等效地,每个特征映射将与不同的内核进行卷积,并且生成的特征映射将被向上求和以产生输出特征映射。

图1.1中描绘的卷积是2-D卷积的实例,但是它可以推广到N-D卷积。例如,在三维卷积中,内核将是长方体,并将在输入特征映射的高度、宽度和深度上滑动。 

定义离散卷积的核集合具有与(n,m,k1,)的某种排列相对应的形状。。。,其中输出特征映射的n个≡数,输入特征映射的m≡数,沿轴j的kj≡内核大小。 

请注意,跨步构成了次抽样的一种形式。作为一种替代方法,可以将其解释为衡量内核被转换了多少,还可以将其看作是保留了多少输出。例如,按两个跃点移动内核等同于按一个跳移动内核,但只保留了奇怪的输出元素(图1.4)。 

从两个输入特征映射到三个输出特征图的卷积映射使用3、2、3和3个内核W的集合来映射到三个输出特征映射。在左路径中,输入特征映射1与核W1、1卷积,并且输入特征映射2与核W1、2卷积,并且结果被加在一起以形成第一输出特征映射。对于中间和右路径重复相同的步骤以形成第二和第三特征映射,并且将所有三个输出特征映射分组在一起以形成输出。

POOLING:

除了离散卷积本身,池操作是CNN的另一个重要组成部分。池操作通过使用一些函数来总结次区域,例如取平均值或最大值,从而减少特征地图的大小。 

猜你喜欢

转载自blog.csdn.net/weixin_38241876/article/details/90670883