【论文视频】Swin Transformer论文精读. ICCV 2021 best paper【论文精读】

在这里插入图片描述

1. 四个问题

  1. 解决什么问题

这篇论文提出了一个新的 Vision Transformer 叫做 Swin Transformer,它可以被用来作为一个计算机视觉领域一个通用的骨干网络。

  • 之所以这么说,是因为ViT 在结论的部分指出,他们那篇论文只是做了分类任务,把下游任务比如说检测和分割留给以后的人去探索,所以说在 ViT 出来之后,大家虽然看到了Transformer在视觉领域的强大潜力,但是并不确定Transformer能不能把所有视觉的任务都做掉,所以 Swin Transformer这篇论文的研究动机就是想告诉大家用 Transformer没毛病,绝对能在方方面面上取代卷积神经网络,接下来大家都上 Transformer 就好了
  1. 用了什么方法解决
    在这里插入图片描述

  2. 效果如何
    在CV领域大杀四方。所以说在这大半年的时间里,原作者团队就以每个月一篇论文的速度,基本把视觉领域所有的任务都刷了个遍,而且 Swin Transformer 不光应用范围广,效果也非常的炸裂

  3. 还存在什么问题
    虽然前面已经说了很多 Swin Transformer 的影响力啊已经这么巨大了,但其实他的影响力远远不止于此,论文里这种对卷积神经网络,对 Transformer,还有对 MLP 这几种架构深入的理解和分析是可以给更多的研究者带来思考的,从而不仅可以在视觉领域里激发出更好的工作,而且在多模态领域里,相信它也能激发出更多更好的工作

2. 论文介绍

参考Swin Transformer论文精读【论文精读】——文字版

3. 参考资料

Swin Transformer论文精读【论文精读】

Swin Transformer论文精读【论文精读】——文字版

Swin Transformer (ICCV 2021 best paper)

猜你喜欢

转载自blog.csdn.net/weixin_43154149/article/details/122749027