RandWireNN: Exploring Randomly Wired Neural Networks for Image Recognition

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_37993251/article/details/89161502

在该研究中,来自 FAIR 的研究人员谢赛宁、Alexander Kirillov 、Ross Girshick 与何恺明通过随机神经网络连接的方式探索了比此前神经架构搜索更为广泛的连接形式,并实现了很好的效果。RandWireNN


Abstract

用于图像识别的神经网络经过广泛的手工设计,从简单的链状模型发展到具有多条路径的结构。ResNets[11]和DenseNets[16]的成功在很大程度上归功于他们的创新线路。目前,神经结构搜索neural architecture search(NAS)的研究正在探索接线与操作类型的联合优化,然而,可能的线路空间受到限制,尽管被搜索,但仍由人工设计驱动。

在这篇论文中,我们通过随机连接神经网络的多连线wired来探索一组更加多样化的连接模式。为此,我们首先定义了一个随机网络生成器的概念,它封装了整个网络生成过程。封装提供了NAS和随机有线网络的统一视图。然后,我们使用三种经典的随机图模型来生成网络的随机连线图。结果令人惊讶:这些随机生成器的几个变体生成的网络实例在ImageNet基准测试中具有竞争力的准确性。这些结果表明,专注于设计更好的网络生成器的新努力可能会带来新的突破,探索更少约束的搜索空间,为新设计提供更多空间。


1. Introduction

我们今天所说的深度学习是从连接主义方法发展到认知科学[38,7]的一种范式,它反映了一种假设,即计算网络的连接方式对构建智能机器至关重要。与这一观点相呼应的是,计算机视觉领域的最新进展是由使用链状连接的模型[19,53,42,43]向更精细的连接模式(如ResNet[11]和DenseNet[16])的转变所驱动的,这些连接模式之所以有效,在很大程度上是因为它们的连接方式。推动这一趋势的是,神经结构搜索(neural architecture search, NAS)[55,56]已经成为联合搜索布线模式和执行哪些操作的一个有前景的方向。NAS方法专注于搜索[55、56、33、26、29、27],同时隐式地依赖于一个重要的但很大程度上被忽略的组件,我们称之为网络生成器(在3.1中定义)。NAS网络生成器定义了一系列可能的网络连接模式的样本服从一个可学习的概率分布。然而,就像ResNet和DenseNet中的布线模式一样,NAS网络生成器是手工设计的,允许的布线模式的空间被限制在所有可能的图的一个小子集中。从这个角度来看,我们要问:如果我们放松这个约束并设计新的网络生成器,会发生什么?

我们通过随机网络生成器采样的随机有线神经网络来探讨这个问题,其中人类设计的随机过程定义了生成。为了减少本文作者对生成器的偏见,我们在图论[51]中使用了三个经典的随机图模型家族:Erdos-R enyi (ER)[6]、barabasio - albert (BA)[1]和Watts-Strogatz (WS)[50]模型。为了定义完整的网络,我们将一个随机图转换成一个有向无环图(DAG),并应用一个简单的映射从节点到它们的功能角色(例如,到相同类型的卷积)。

结果令人惊讶:这些随机生成器的几个变体在ImageNet[39]上产生了具有竞争力的精度的网络。使用WS模型的最佳生成器生成的多个网络性能优于或可与完全手工设计的同类网络和通过各种神经结构搜索方法找到的网络相媲美。我们还观察到,对于同一生成器生成的不同随机网络,精度的方差较低,但不同生成器之间可以有明显的精度差距。这些观察结果表明,网络发生器的设计很重要。

我们注意到,这些随机的有线网络并不是预先免费的,即使它们是随机的。实际上,许多强先验被隐式地设计到生成器中,包括选择特定的规则和分布来控制连接或不连接某些节点的概率。每个随机图模型[6,50,1]都具有一定的概率行为,使得抽样的图可能具有一定的属性(例如,WS是高度聚集的[50])。最终,生成器的设计决定了网络上的概率分布,因此这些网络往往具有某些特性。生成器的设计是前面的基础,因此不应该被忽视。

我们的工作探索了与随机搜索NAS并发工作正交的方向[23,41]。这些研究表明,随机搜索在NAS搜索空间具有竞争性[55,56],即在我们看来,NAS网络生成器。他们的结果可以被理解为表明先前由NAS生成器设计引起的倾向于产生良好的模型,类似于我们的观察。与[23,41]不同的是,我们的工作超越了现有NAS生成器的设计,探索了不同的随机生成器设计。

最后,我们的工作表明,从设计单个网络到设计网络生成器的新过渡是可能的,类似于我们的社区如何从设计特性过渡到设计学习特性的网络。我们建议设计新的网络生成器,生成用于搜索的新系列模型,而不是主要关注使用固定生成器进行搜索。设计的网络生成器(在NAS和其他地方)的重要性还意味着机器学习尚未实现自动化(cf,"AutoML")——基本的人类设计和先前从网络工程到网络生成器工程的转变。


2. Related Work

Network wiring. 早期的递归和卷积神经网络(RNNs和CNNs)[37,21]使用链状布线模式。LSTMs[14]使用更复杂的连接来创建门控机制。Inception CNNs[45, 46, 44]连接多个不规则的分支通路,而ResNets[11]使用x + F(x)作为规则的连接模板;DenseNets[16]使用连接代替:[x, F (x)]。通常,LSTM、Inception、ResNet和DenseNet连接模式是有效的,超出了任何单独的实例化。

Neural architecture search (NAS). Zoph和Le[55]定义了一个NAS搜索空间,并将增强学习(RL)研究为一种优化算法。近年来NAS的研究主要集中在优化方法上,包括RL [55, 56], progressive [26], gradient-based[29,27],体重共享[33],进化[34],随机搜索[23,41]方法。搜索空间由隐含在[55]中的网络生成器确定的NAS工作在这些工作中基本没有变化。虽然这对于优化方法的比较是合理的,但它内在地限制了可行解的集合。

Randomly wired machines. 人工智能的先驱们最初对随机连接的硬件及其在计算机程序中的实现感兴趣。,人工神经网络)。20世纪40年代,图灵[47]提出了无组织机器的概念,这是最早的随机连接神经网络的一种形式。最早的神经网络学习机之一,由明斯基[31]在20世纪50年代设计并使用真空管实现,是随机布线的。20世纪50年代末,Rosenblatt[36]制造的Mark I感知器视觉识别机使用了一组随机连接的光电池。

Relation to neuroscience. 图灵将这些无组织的机器比作婴儿的大脑皮层。Rosenblatt[36]指出,神经系统的物理连接……从一个有机体到另一个有机体是不相同的,而且在出生时,最重要的网络的构建在很大程度上是随机的。研究[50,48]发现,线虫(worm)的神经网络中约有300个神经元,是一个具有小世界性质的[18]图。随机图建模是研究人脑神经网络的一种工具[2,4,3]。

Random graphs in graph theory. 随机图在图论[51]中得到了广泛的研究。随机图根据模型定义的随机过程表现出不同的概率行为(如[6,1,50])。随机图模型的定义决定了结果图(如smallworld[18])中编码的先验知识,并可能将它们与自然发生的现象联系起来。因此,随机图模型是建模和分析真实世界图的有效工具,如社交网络、万维网、引文网络。​​​​​​​


3. Methodology

我们现在介绍网络生成器的概念,它是随机有线神经网络的基础。

3.1. Network Generators

在参数空间\Theta到neural network architectures空间\mathcal{N},我们定义一个网络生成器network generator映射g : \Theta \mapsto \mathcal{N}。给定\theta \in \Theta, g(\theta)返回一个神经网络实例n \in \mathcal{N}\mathcal{N}集合相关通常是一个家庭网络,例如,VGGNet[43],ResNets[11],或DenseNets[16]。

生成器g决定计算图的连接方式。例如,在ResNets中,生成器生成一堆计算x + F (x)。参数\theta指定实例化网络和可能包含不同的信息。例如,在一个ResNet生成器,\theta可以指定数量的阶段,每个阶段的残块,深度/宽度/过滤器尺寸,激活类型等。

直观地说,你可能认为g函数编程语言,例如Python,这需要一个列表的参数\theta(相应的),并返回一个网络体系结构。生成器返回的网络表示n是符号的,这意味着它指定要执行的操作类型和数据流;它不包括网络权值,是在网络生成后从数据中学习得来的。

Stochastic network generators. 上述网络生成器g(\theta )执行一个确定的映射:考虑到相同的\theta,它总是返回相同的网络体系结构\mathcal{N}。我们可以扩展g接受额外的参数s是一个伪随机数生成器的种子,内部使用g。给定这个种子,可以构造一个(伪)随机的家庭网络通过调用g(\theta, s)多次,但改变的值s=1,2,3, \ldots\theta为固定值,在所有可能的种子均匀概率分布值诱发(可能不均匀)概率分布/ \mathcal{N}我们称之为生成器表单的g(\theta, s)随机网络生成器。

在讨论我们的方法之前,我们通过在随机网络生成器上下文中重新解释NAS[55,56]的工作提供了额外的背景。

NAS from the network generator perspective. [55, 56]的NAS方法在生成网络架构的过程中使用了LSTM控制器。但是LSTM只是完整NAS网络生成器的一部分,它实际上是一个随机网络生成器,如下所示。

LSTM的权重矩阵是生成器的参数\theta​​​​​​​​​​​​​​。每个LSTM的输出时间步是一个概率分布对\theta条件。给定这个分布和种子s,每个步骤都采样一个构造操作(例如,插入一个操作符,连接两个节点)。LSTM控制器的参数\theta​​​​​​​​​​​​​​,由于其概率行为,优化(搜索)的RL [55、56]。

然而,LSTM不是唯一的组件在NAS网络发生器g(\theta, s)。还有手工设计的规则映射计算DAG取样操作,和这些规则也是g的一部分。使用节点/边在图论的术语,在[56]NAS网络,如果我们地图综合操作(例如,总和)节点和一个一元的转换(例如,conv)优势(见补充),NAS的规则发生器包括但不限制:

  • 要搜索的子图称为单元[56],它总是接受前两个单元的输出节点的激活;
  • 每个单元包含连接到2的5个节点和仅2个现有节点,通过LSTM输出的概率分布抽样选择;
  • 单元中没有输出的所有节点都由一个额外的节点连接起来,形成单元的有效DAG。

所有的生成规则,连同使用LSTM的选择,以及系统的其他超参数(例如,节点的数量,比如5),组成了NAS网络生成器,生成完整的DAG。也值得注意和边缘节点的视图组合转换并不是唯一的方法来解释一个神经网络图,所以这不是唯一的方法将通用图转化为神经网络(我们使用不同的映射在3.2)。

如前所述,封装完整的生成过程揭示了哪些组件得到了优化,哪些组件是硬编码的。现在很明显,网络空间N已经被手工设计的规则小心地限制了。例如,上面列出的规则表明,单元格中的5个节点都具有精确的输入度2和输出度1(参见附录)。这并不包括所有可能的5-(内部)节点图。它处于高度受限的网络空间中。查看NAS从网络的角度发生器有助于解释最近展示了无效的复杂的优化与随机搜索(23日,41):手动设计NAS网络生成器是一个强之前,代表meta-optimization元优化超越搜索在θ(例如,通过RL)和s(通过随机搜索)。

3.2. Randomly Wired Neural Networks

我们对NAS的分析表明,网络生成器是手工设计的,并对人类知识进行编码。很可能网络生成器的设计起了相当大的作用,如果是这样的话,目前的方法缺乏实现“自动”[20]的能力,仍然需要大量的人工工作(c.f.)。“[55],重点补充道)。为了研究生成器设计的重要性,仅比较相同NAS生成器的不同优化器(复杂的或随机的)是不够的;有必要研究新的网络生成器,它们与NAS生成器有本质的不同。

这就引出了我们对随机连线神经网络的探索。也就是说,我们将定义网络生成器,它生成具有随机图的网络,受不同的人类特定先验影响。为了最大限度地减少人类对我们的偏见,本文作者将使用三种经典的随机图模式:

Generating general graphs. 我们的网络生成器首先生成一个通用图(在图论的意义上)。它生成一组节点和连接节点的边,而不限制图与神经网络的对应关系。这允许我们自由地使用图论(ER/BA/WS)中的任何通用图生成器。一旦得到一个图,它就被映射到一个可计算的神经网络。

从一般图到神经网络操作的映射本身是任意的,因此也是人为设计的。我们有意使用一个简单的映射(接下来讨论),这样我们就可以专注于图形连接模式。​​​​​​​

Edge operations. 假设通过构造图是有方向的,我们定义边是数据流。即,有向边将数据(张量)从一个节点发送到另一个节点​​​​​​​。

Node operations. 有向图中的节点可以有一些输入边和一些输出边。我们将一个节点(图2)表示的操作定义为​​​:

  • Aggregation:将输入数据(从一条或多条边)通过加权和组合到一个节点;权重是可以学习的,也是积极的;
  • Transformation:通过定义为relu - convolu- bn triplet4的转换处理聚合的数据[12]。所有节点都使用相同类型的卷积,默认情况下为3×3可分卷积。
  • Distribution:节点的输出边缘发送转换后的数据的相同副本。

这些操作有一些很好的属性:

(i)加法聚合(不同于串联)保持了与输入通道相同的输出通道数量,这就防止了随后的卷积在计算中变大,这可能会增加具有较大输入度的节点的重要性,仅仅是因为它们增加了计算量,而不是因为它们是如何连接的。

(ii)转换应具有相同数量的输出和输入通道(除非切换阶段;,以确保转换后的数据可以与来自任何其他节点的数据相结合。固定通道计数之后,不管输入和输出的程度如何,都会保持每个节点的FLOPs(浮点操作)和参数计数不变。

(iii)无论输入和输出的程度如何,聚合和分布几乎没有参数(除了用于加权求和的参数数量可以忽略不计)。此外,假设每条边都是无参数的,则图的总拖数和参数计数与节点的数量大致成正比,且几乎与边的数量无关。

这些属性几乎将FLOPs和参数计数与网络连接解耦,例如,在随机网络实例或不同生成器之间,FLOPs的偏差通常为±2%。这可以在不增加/减少模型复杂性的情况下比较不同的图。因此,任务性能的差异反映了连接模式的属性。

Input and output nodes. 到目前为止,即使给定边/节点操作,一般图也不是一个有效的神经网络,因为它可能有多个输入节点(即和多个输出节点。对于典型的神经网络,如图像分类,最好有一个单一的输入和输出。我们应用一个简单的后处理步骤。

对于给定的一般图,我们创建一个连接到所有原始输入节点的额外节点。这是惟一的输入节点,它向所有原始输入节点发送相同的输入数据副本。类似地,我们创建一个连接到所有原始输出节点的额外节点。这是唯一的输出节点;我们让它从所有原始输出节点计算(未加权的)平均。这两个节点不做卷积。当涉及到节点数N时,我们排除了这两个节点。​​​​​​​

Stages. 由于具有唯一的输入和输出节点,一个图就足以表示一个有效的神经网络。不过,在图像分类方面,网络尤其如此​​​​​​​始终保持完整的输入分辨率是不可取的。通常[19,43,11,56]将网络划分为逐步向下采样特征映射的阶段。

我们使用一个简单的策略:上面生成的随机图定义了一个阶段。与ResNet中的阶段类似,例如conv1、2、3、4、5[11],我们的整个网络由多个阶段组成。一个随机图表示一个阶段,它通过其唯一的输入/输出节点与前/后阶段连接。对于直接连接到输入节点的所有节点,将其转换修改为步长为2。随机图中的信道数在[11]之后从一个阶段到下一个阶段增加了2倍。

表1总结了我们实验中使用的随机连接神经网络,称为RandWire。对于conv1和/或conv2,我们使用一个卷积层来简化,下面是多个随机图。网络以一个分类器输出结束(表1,最后一行)。图1显示了三个随机有线网络样本的完整计算图。​​​​​​​

3.3. Random Graph Models

现在我们简要地描述一下我们研究中使用的三种经典的随机图模型。我们强调这些随机图模型并不是本文提出的;我们描述它们是为了完整。这三种经典模型均生成无向图;我们使用一个简单的启发式方法将它们转换为DAGs(参见附录)。

Erdos-R ˝ enyi (ER).  在ER模型[8,6]中,有N个节点时,两个节点之间的边与概率P相连,不依赖于其他所有节点和边。此过程对所有节点对进行迭代。ER生成模型只有一个参数P,表示为ER(P)。

任何有N个节点的图由ER模型生成的概率都是非零的,包括断开连接的图。然而,当P>\frac{\ln (N)}{N}[6]时,由ER(P)生成的图有很高的概率是单个连通分量。这提供了一个由生成器引入的隐式偏见的例子。

Barabasi-Albert (BA). ´ BA模型[1]通过顺序添加新节点生成随机图。初始状态为M个没有边的节点(1 \leq M<N)。对于要添加的节点,它将以与vs度成正比的概率连接到现有的节点v上。新节点以这种方式重复添加不重复的边,直到有M条边为止。然后进行迭代,直到图中有N个节点。BA生成模型只有一个参数M,表示为BA(M)。

任何BA(M)生成的图都有M·(N - M)条边。因此,BA(M)生成的所有图的集合是所有可能的n节点图的子集,这给出了一个例子,说明了尽管存在随机性,但图生成器如何引入底层先验。​​​​​​​

Watts-Strogatz (WS). 定义了WS模型[50]生成小世界图[18]。最初,将N个节点定期放置在一个环中,每个节点连接到其两边的K / 2个邻居(K是偶数)。然后,在一个顺时针循环中,对于每个节点v,连接v到它的顺时针i-th下一个节点的边被概率P重新连接。重布线的定义是一致地选择一个非v且不是重复边的随机节点。对于1<i<K / 2,这个循环重复K / 2次。K和P是WS模型仅有的两个参数,记作WS(K, P)。由WS(K, P)恰好有N·K条边。

WS(K, P)也只覆盖了所有可能的n节点图的一个小子集,但这个子集与BA所覆盖的子集不同。这提供了一个关于如何引入不同基础先验的示例。​​​​​​​

3.4. Design and Optimization

我们随机连接神经网络生成由一个随机网络生成器​​​​​​​g(\theta, s)。随机图参数,即P, M, (K,P),ER, BA, WS分别是参数θ的一部分。这种1或2参数空间的优化基本上是由人工设计人员通过试错(try - and-error)来完成的,例如通过行/网格搜索。从概念上讲,这种优化与我们和其他模型(包括NAS)中涉及的许多其他设计没有什么不同,例如节点数量、阶段和过滤器。

优化也可以通过扫描随机种子s来实现,这是一种随机搜索的实现。随机搜索对于任何随机网络生成器都是可能的,包括我们的和NAS。但正如我们通过实验所展示的对于不同的种子,我们的网络的精度变化很小,这表明随机搜索的好处可能很小。因此,我们不进行随机搜索,并报告多个随机网络实例的平均精度。因此,除了手工编码的设计,我们的网络生成器具有最小的优化(1或2参数网格搜索)。


4. Experiments

我们对ImageNet 1000类分类任务[39]进行了实验。我们在训练台上训练 ∼1.28M图像,并在50K验证图像上进行测试

Architecture details 我们的实验跨越了一个小的计算体系(例如MobileNet[15]和ShuffleNet[54])和一个常规的计算体系(例如ResNet-50/101[11])。这些机制中的RandWire网络如表1所示,其中N个节点和C个通道决定了网络的复杂性。我们设N=32,然后将C设为最接近的整数,使目标模型复杂度满足:在小范围内C=78,在常规范围内C=109或154。​​​​​​​

Random seeds 对于每个生成器,我们随机抽取5个网络实例(5个随机种子),从零开始训练它们,并评估每个实例的准确性。为了强调我们没有对每个生成器执行随机搜索,我们报告了所有5个随机种子(即,我们不挑最好的)。我们用同样的种子1,...,5做所有的实验。​​​​​​​

Implementation details 我们训练我们的网络100个时代,除非注明。我们使用半周期余弦形状的学习速率衰减[28,16]。初始学习率为0.1,权值衰减为5e-5,动量为0.9。我们使用系数为0.1的标签平滑正则化[44]。训练程序的其他细节与[10]相同。​​​​​​​

4.1. Analysis Experiments

Random graph generators. 图3比较了不同生成器在小计算条件下的结果:每个RandWire网络有580M的触发器。图4显示了每个生成器的一个示例图。图生成器由随机图模型(ER/BA/WS)及其参数集指定,例如ER(0:2)。

我们观察到:所有随机生成器在所有5个随机网络实例上都提供了不错的精度;它们没有一个不收敛。ER、BA和WS均具有一定的设置,其平均准确率为>73%,与WS的最佳平均准确率73.8%相差<1% (4;0:75)。

此外,随机网络实例之间的差异很小。图3中几乎所有的随机生成器的标准偏差(std)都是0.2 0.4%。作为比较,多次训练同一个ResNet-50实例的典型std为0.1 0.2%[10]。我们观察到的随机生成器的低方差表明,即使没有随机搜索(即,从多个随机实例中选出最好的实例),网络实例的精度很可能接近平均精度,但会受到一些噪声的影响。

另一方面,不同的随机生成器的平均精度可能存在差距,如BA(1)的精度为70.7%,比WS(4)低3%;0:75)。这表明随机生成器的设计,包括布线先验(BA vs. WS)和生成参数,对采样网络实例的准确性起着重要的作用。

图3还包括一组非随机生成器:\operatorname{WS}(K, P=0)。P =0表示没有随机重布线。有趣的是,图3中对于任意任意固定K的对应项​​​​​​​,\operatorname{WS}(K, P=0)均比\operatorname{WS}(K, P>0)差。

Graph damage. 我们通过随机移除一个节点或一个消融ablative设置的边缘来探索图的损伤[22,49]。在形式上,给定一个训练后的网络实例,我们从图中删除一个节点或一条边,在不进行任何进一步训练的情况下评估验证的准确性。

当删除一个节点时,我们将评估精确度损失()与该节点的输出程度(图5,顶部)。很明显,ER、BA和WS在这种损伤下表现不同。对于WS生成的网络,当删除节点的输出程度越高时,平均精度下降幅度越大。这意味着WS中向多个节点发送信息的hub节点具有影响力。

当删除一条边时,我们评估该边的目标节点的输入度与精度损失(图5,底部)。如果边缘s目标节点的输入度较小,则删除该边缘会改变目标节点s输入的较大部分。这一趋势可以从图5(下图)中精度损失沿x轴总体呈下降趋势看出。ER模型对边缘去除不敏感,可能是因为在ER s定义中,每条边的连线都是独立的。​​​​​​​

Node operations. 到目前为止,我们实验中的所有模型都使用一个33可分离卷积作为图2中的conv。接下来我们评估备选方案。我们考虑:(i) 33(常规)卷积,(ii) 3 x 3最大/平均池,然后是1 x 1个卷积。我们用指定的替代方法替换所有节点的转换。我们调整因子C以保持所有可选网络的复杂性。

图6显示了图3中列出的每个生成器的平均精度。有趣的是,几乎所有的网络仍然收敛到非平凡的结果。即使是带有1 x 1个conv的3 x 3个池,其性能也类似于3 x 3个conv。虽然更换了网络发生器,但网络发生器的精度排名基本保持不变;事实上,图5中任意两个级数之间的Pearson相关性为0:91~0:98。这表明网络连接所起的作用与所选操作的作用有些正交。​​​​​​​

4.2. Comparisons

Small computation regime. 表2比较了我们在小计算条件下的结果,这是现有NAS论文中研究的一种常见设置。这里我们不再训练100个epochs,而是按照[56,34,26,27]进行公平比较。RandWire WS (4, 0.75)的平均准确度为74.7%(最低74.4%,最高75.0%)。这一结果优于或可与所有现有的手工设计​​​​​​​线状wiring(MobileNet/ShuffleNet)和基于NAS的结果,除了AmoebaNet-C[34]。RandWire获得的平均精度是一个具有竞争力的结果,特别是考虑到我们在随机生成器中不执行随机搜索,并且我们对所有节点使用单一操作类型。​​​​​​​

Regular computation regime. 接下来,我们将RandWire网络与类似故障下的ResNet-50/101[11]进行比较。在这种情况下,我们采用了一种基于边缘去除分析的正则化方法:对于每个训练的小批量,我们随机删除目标节点输入度为> 1且概率为0.1的边缘。这种正则化类似于NAS[56]中采用的DropPath。在分级器fc层,我们训练的权值衰减为1e-5,[13]丢失率为0.2。其他设置与小计算系统相同。我们使用[10]的配方训练ResNet/ResNeXt竞争者,但是使用​​进度和标签平滑,以便公平比较。

表3比较了RandWire与ResNet和ResNeXt在类似于ResNet-50/101的失败情况下的性能。我们的平均准确率分别比ResNet- 50和ResNet-101高1.9%和1.3%,比ResNeXt高0.6%。ResNe(X)t和RandWire都可以被认为是手工设计的,但是ResNe(X)t是基于设计好的布线模式,而RandWire使用设计好的随机生成器。这些结果说明了手工设计可以发挥的不同作用。​​​​​​​

Larger computation. 为了完整起见,我们与使用更多计算的最精确的基于nas的网络进行了比较。为了简单起见,我们使用与表3中相同的经过训练的网络,但是只将测试图像大小增加到320 320,而没有进行再训练。表4比较了结果。

我们的网络的平均准确度比最精确的NAS结果低0.7% 1.3%,但我们的网络仅使用2/3 FLOPs和3/4个参数。我们的网络针对100个epoch进行训练,而不是针对目标图像的大小,而NAS方法使用>250个epoch,并针对目标的331 x 331个size进行训练。与NAS不同,我们的模型没有对操作进行搜索。这些差距将在今后的工作中加以探讨。​​​​​​​

COCO object detection. 最后,我们报告了可转换性的结果,通过微调网络可可对象检测[25]。我们使用更快的R-CNN[35]和FPN[24]作为目标探测器。我们的微调是基于1×设置公开可用的检测器[9]。我们只需用表3(常规模式)中的骨干替换骨干。

表5比较了对象检测结果。在实验中观察到的趋势与在成象网实验中观察到的趋势相似表3。这些结果表明,我们的随机有线网络学习到的特征也可以传输。​​​​​​​


5. Conclusion

从图论的角度探讨了三种经典随机图模型驱动下的随机有线神经网络。结果令人惊讶:这些模型的平均精度与人工设计和优化的神经结构搜索模型具有竞争力。我们的探索得益于网络生成器的新概念。我们希望未来的工作探索新的生成器设计可能产生新的,强大的网络设计。

猜你喜欢

转载自blog.csdn.net/weixin_37993251/article/details/89161502