CVPR 2021 Visual Transformer 论文合集（附20篇推荐必读ViT论文） - 代码天地

CVPR 2021 Visual Transformer 论文合集（附20篇推荐必读ViT论文）

其他 2021-11-22 13:57:24 阅读次数: 0

最近，Visual Transformer 的研究热点达到了前所未有的高峰，仅 CVPR 2021 就发表了 40 多篇，应用涉及：图像分类、目标检测、实例分割、语义分割、行为识别、自动驾驶、关键点匹配、目标跟踪、NAS、low-level视觉、HoI、可解释性、布局生成、检索、文本检测等方向。

引爆CV圈 Transformer热潮的有两篇最具代表性论文，即 ECCV 2020的 DETR（目标检测）和 ICLR 2021的 ViT（图像分类）。

目录

CVPR 2021 Visual Transformer 论文合集

必读的 20 篇必读 ViT 论文

CVPR 2021 Visual Transformer 论文合集

1. End-to-End Human Pose and Mesh Reconstruction with Transformers

Paper: https://arxiv.org/pdf/2012.09760.pdf
Code: https://github.com/microsoft/MeshTransformer

2. Temporal-Relational CrossTransformers for Few-Shot Action Recognition

Paper: https://arxiv.org/pdf/2101.06184.pdf
Code: https://github.com/tobyperrett/trx

3. Kaleido-BERT：Vision-Language Pre-training on Fashion Domain

Paper: https://arxiv.org/pdf/2103.16110.pdf
Code: https://github.com/mczhuge/Kaleido-BERT

4. HOTR: End-to-End Human-Object Interaction Detection with Transformers

Paper: https://arxiv.org/pdf/2104.13682.pdf
Code: None

Paper: https://arxiv.org/pdf/2104.09224.pdf
Code: https://github.com/autonomousvision/transfuser

6. Pose Recognition with Cascade Transformers

Paper: https://arxiv.org/pdf/2104.06976.pdf
Code: https://github.com/mlpc-ucsd/PRTR

7. Variational Transformer Networks for Layout Generation

Paper: https://arxiv.org/pdf/2104.02416.pdf
Code: None

8. LoFTR: Detector-Free Local Feature Matching with Transformers

Homepage: https://zju3dv.github.io/loftr/
Paper: https://arxiv.org/pdf/2104.00680.pdf
Code: https://github.com/zju3dv/LoFTR

中文解读：CVPR 2021 | 稀疏纹理也能匹配？速览基于Transformers的图像特征匹配器LoFTR

9. Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

Paper: https://arxiv.org/pdf/2012.15840.pdf
Code: https://github.com/fudan-zvg/SETR
中文解读：CVPR 2021 | Transformer再下一城！复旦等提出SETR：语义分割网络

10. Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers

Paper: https://arxiv.org/pdf/2103.16553.pdf
Code: None

11. Transformer Tracking

Paper: https://arxiv.org/pdf/2103.15436.pdf
Code: https://github.com/chenxin-dlut/TransT

12. MIST: Multiple Instance Spatial Transformer

Paper: https://arxiv.org/pdf/1811.10725.pdf
Code: None

13. Multimodal Motion Prediction with Stacked Transformers

Paper: https://arxiv.org/pdf/2103.11624.pdf
Code: https://decisionforce.github.io/mmTransformer

15. Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

Paper(Oral):https://arxiv.org/pdf/2103.11681.pdf
Code: https://github.com/594422814/TransformerTrack

16. Pre-Trained Image Processing Transformer

Paper: https://arxiv.org/abs/2012.00364
Code: None
中文解读：CVPR 2021 | Transformer进军low-level视觉！北大华为等提出预训练模型IPT

17. End-to-End Video Instance Segmentation with Transformers

Paper(Oral): https://arxiv.org/pdf/2011.14503.pdf
Code: https://github.com/Epiphqny/VisTR
中文解读：CVPR 2021 Oral | Transformer再突破！美团等提出VisTR：视频实例分割网络

18. UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Paper(Oral): https://arxiv.org/pdf/2011.09094.pdf
Code: https://github.com/dddzg/up-detr
中文解读：CVPR 2021 Oral | Transformer再发力！华南理工和微信提出UP-DETR：无监督预训练检测器

19. End-to-End Human Object Interaction Detection with HOI Transformer

Paper: https://arxiv.org/pdf/2103.04503.pdf
Code: https://github.com/bbepoch/HoiTransformer

20. Transformer Interpretability Beyond Attention Visualization

21. Line Segment Detection Using Transformers without Edges

Paper(Oral): https://arxiv.org/abs/2101.01909.pdf
Code: None

22. MaX-DeepLab: End-to-End Panoptic Segmentation With Mask Transformers

Paper: https://cs.jhu.edu/~alanlab/Pubs21/wang2021max.pdf
Code: None

23. SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation

Paper(Oral): https://arxiv.org/pdf/2101.08833.pdf
Code: https://github.com/dukebw/SSTVOS

24. Topological Planning With Transformers for Vision-and-Language Navigation

Paper: https://arxiv.org/pdf/2012.05292.pdf
Code: None

25. Taming Transformers for High-Resolution Image Synthesis

Homepage: https://compvis.github.io/taming-transformers/
Paper(Oral): https://arxiv.org/pdf/2012.09841.pdf
Code: https://github.com/CompVis/taming-transformers

26. Point 4D Transformer Networks for Spatio-Temporal Modeling in Point Cloud Videos

Paper(Oral): https://hehefan.github.io/pdfs/p4transformer.pdf
Code: None

27. General Multi-Label Image Classification With Transformers

Paper: https://arxiv.org/pdf/2011.14027.pdf
Code: None

28. Bottleneck Transformers for Visual Recognition

Paper: https://arxiv.org/pdf/2101.11605.pdf
Code: None
中文解读：CNN+Transformer！谷歌提出BoTNet：新主干网络！在ImageNet上达84.7%准确率！

29. VLN BERT: A Recurrent Vision-and-Language BERT for Navigation

Paper(Oral): https://arxiv.org/pdf/2011.13922.pdf
Code: https://github.com/YicongHong/Recurrent-VLN-BERT

30. Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Paper(Oral): https://arxiv.org/pdf/2102.06183.pdf
Code: https://github.com/jayleicn/ClipBERT

31. Scaling Local Self-Attention For Parameter Efficient Visual Backbones

Paper(Oral): https://arxiv.org/pdf/2103.12731.pdf
Code: None

下面是还没有公开的论文：

1. HR-NAS: Searching Efficient High-Resolution Neural Architectures with Transformers

Paper(Oral): None

Code: https://github.com/dingmyu/HR-NAS

2. Diverse Part Discovery: Occluded Person Re-Identification With Part-Aware Transformer

Paper: None

Code: None

3. LayoutTransformer: Scene Layout Generation With Conceptual and Spatial Diversity

Paper: None

Code: None

4. Facial Action Unit Detection With Transformers

Paper: None

Code: None

5. Clusformer: A Transformer Based Clustering Approach to Unsupervised Large-Scale Face and Visual Landmark Recognition

Paper: None

Code: None

6. Lesion-Aware Transformers for Diabetic Retinopathy Grading

Paper: None

Code: None

7. Adaptive Image Transformer for One-Shot Object Detection

Paper: None

Code: None

8. Multi-Stage Aggregated Transformer Network for Temporal Language Localization in Videos

Paper: None

Code: None

9. Self-Supervised Video Hashing via Bidirectional Transformers

Paper: None

Code: None

10. Gaussian Context Transformer

Paper: None

Code: None

11. Self-attention based Text Knowledge Mining for Text Detection

Paper: None

Code: https://github.com/CVI-SZU/STKM

12. SSAN: Separable Self-Attention Network for Video Representation Learning

Paper: None

Code: None

必读的 20 篇最新 ViT 论文

转自：https://mp.weixin.qq.com/s/CpmBY2qmvkxLiBmgy_PHJw

猜你喜欢

转载自blog.csdn.net/u014546828/article/details/117657912

CVPR 2021 Visual Transformer 论文合集（附20篇推荐必读ViT论文）

视觉 Transformer 的可视化｜CVPR2021

CVPR2021跟踪算法TransT的配置（Transformer Tracking）

Visual Transformer (ViT)模型详解

【论文笔记】Attention和Visual Transformer

CVPR2021论文阅读记录

CVPR2021目标检测方向论文

2021 ICCV、CVPR 知识蒸馏相关论文

Visual Transformer (ViT)模型与代码实现（PyTorch）

Visual Transformer开端——ViT及其代码实现

CVPR2023 | 神经网络结构设计、CNN、GNN、Transformer论文合集（附代码）

CVPR2021-RSTNet-Captioning with Adaptive Attention on Visual and Non-Visual Words

CVPR 2021｜DS-TransUNet：Transformer医学图像分割，表现SOTA

2018年CVPR中部分目标跟踪论文visual tracking

2.5D Visual Sound：CVPR2019论文解析

【论文笔记】Contextual Transformer Networks for Visual Recognition

CVPR2021跟踪算法TransformerTrack的配置（Exploiting Temporal Context for Robust Visual Tracking）

CVPR 2021 结果出炉！最全论文下载（更新中）

【CVPR2021】AdderSR 论文学习笔记

CVPR2021_PLOP 论文代码环境搭建步骤

【半监督医学图像分割 2021 CVPR】CVRL 论文翻译

CVPR2021论文列表（中英对照）

自监督论文阅读系列：CVPR 2021：Every Annotation Counts

ICCV2021跟踪算法Stark的配置（Learning Spatio-Temporal Transformer for Visual Tracking）

【论文简述】Multi-View Stereo with Transformer（arxiv 2021）

最新 Visual Transformer 论文速览（Attention Free Transformer，CeiT，DynamicViT）

最新！CVPR 2021 医学图像分割论文大盘点（5篇论文）

【深度学习】语义分割：论文阅读：(CVPR 2022) MPViT（CNN+Transformer）：用于密集预测的多路径视觉Transformer

论文笔记 Learning Visual Knowledge Memory Networks for Visual Question Answering （CVPR2018)

CVPR-2021收集

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)