摘要
卷积神经网络(CNNs)在计算机视觉中无处不在,存在着大量有效且高效的变体。最近,原本在自然语言处理中引入的Transformer越来越多地被应用于计算机视觉领域。虽然早期采用者继续使用CNN作为主干网络,但最新的网络已经是端到端无需CNN的Transformer解决方案。最近一个令人惊讶的发现表明,一个没有任何传统卷积或Transformer组件的基于简单多层感知器(MLP)的解决方案可以产生有效的视觉表征。尽管CNNs、Transformers和MLP-Mixers可能被视为完全不同的架构,但我们提供了一个统一的视角,表明它们实际上是一种更通用的在神经网络堆栈中聚合空间上下文的方法的特例。我们提出了CONTAINER(CONText AggregatIon NEtwoRk,上下文聚合网络),这是一个用于多头上下文聚合的通用构建块,它可以像Transformer一样利用长距离交互,同时仍然利用局部卷积操作的归纳偏置,从而实现通常在CNN中观察到的更快的收敛速度。我们的CONTAINER架构在ImageNet上使用2200万参数实现了 82.7 %