摘要
由于复杂的注意力机制和模型设计,大多数现有的视觉Transformer(ViTs)在实际的工业部署场景中,如TensorRT和CoreML,无法像卷积神经网络(CNNs)那样高效运行。这提出了一个明显的挑战:能否设计出一个视觉神经网络,既能像CNNs一样快速推理,又能像ViTs一样强大?在这项工作中,我们提出了一种下一代视觉Transformer,用于在实际工业场景中高效部署,即Next-ViT,它从延迟/准确性权衡的角度主导了CNNs和ViTs。Next Convolution Block(NCB)和Next Transformer Block(NTB)分别开发,以部署友好的机制捕获局部和全局信息。然后,设计了Next Hybrid Strategy(NHS),以高效的混合范式堆叠NCB和NTB,从而在各种下游任务中提升性能。广泛的实验表明,Next-ViT在各种视觉任务的延迟/准确性权衡方面显著优于现有的CNNs、ViTs和CNN-Transformer混合架构。在TensorRT上,Next-ViT在COCO检测上超过了ResNet 5.5 mAP(从40.4到45.9),在ADE20K分割上超过了<