彻底搞懂Transformer算法在检测/分割/3D视觉/自动驾驶/视觉大模型上的应用

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

自从Transformer以及BERT出来以后，便开始在NLP领域一统江湖。近期，基于Transformer的多模态大模型以及AIGC生成方向等方向也成为了业界和学界的研究热点，同时大模型也在自动驾驶上数据标注以及模型蒸馏上有着广泛的应用。

自从Transformer以及BETR出来以后，便开始在NLP领域一统江湖。随着这几年的发展，在各种视觉基准数据集上，Vision Transformer已经逐步替代掉了以往的CNN结构，并且整体架构更加简单。近期，基于Transformer的多模态大模型以及AIGC生成方向等方向也成为了业界和学界的研究热点，同时大模型也在自动驾驶上数据标注以及模型蒸馏上有着广泛的应用。

自动驾驶是高安全型应用，需要高性能和高可靠的深度学习模型，Vision Transformer是理想的选择。现在主流的自动驾驶感知算法基本都使用了Vision Transformer相关技术，比如分割、2D/3D检测，以及最近大火的大模型（如SAM），Vision Transformer在自动驾驶领域的落地方面遍地开花。另一方面，在自动驾驶或图像处理相关算法岗位的面试题中，Vision Transformer是必考题，需要对其理论知识有深入理解，并且在项目中真实的使用过相关技术。

如何入门学习？

视觉Transformer的设计思想与之前的CNN一个手工设计上有很大的不同，理解上并不是很直观，自学入门并不简单。许多同学在刚学习的时候往往不知道如何下手，大多数人不清楚如何将Vision Transformer应用到特定任务，例如，如何设计具体模型结构来做感知任务，如何根据自己的业务需要选择更合适的Transformer模型，如何把视觉大模型应用到自己的业务或者研究任务上等等。

为此，在深入调研大家的需求后，我们选择了行业主流的Vision Transformer感知的基础及应用算法，其内容主要包括基于ViT的分割、检测、大模型、以及在自动驾驶感知的应用等。从0到1为大家详细展开网络结构设计、算法优化、实战等方方面面，内容非常详细，梳理整个领域一些通用的设计原则以及研究进展，紧跟22年以后的一些新的方法与研究热点问题。

扫码学习课程

紧密结合实战，帮助大家更好地理解算法的实现细节，系统和全面地介绍基于Transformer的分割与检测模型。 这是国内首门完整的视觉Transformer理论与实战教程，一骑绝尘！特别适合刚入门的小白以及需要在业务上从事自动驾驶感知或图像算法的同学，也很适合想要系统地了解新方向的其他方向从业人员。

课程大纲如下：

主讲老师

Tiger老师，Top2 博士，目前业界研究员。目前主要研究方向：图像视频检测与分割，多模态场景理解，物体跟踪，多模态大模型。曾在计算机视觉顶会（CVPR、ECCV、ICCV、NeurIPS、ICLR等）/顶刊（T-PAMI，IJCV，TIP）等发表相关论文近30篇，其中以第一作者发表15篇。熟悉常用的分割与检测算法的设计与具体实现。指导过超过6个以上的低年级博士以及硕士生发表过顶会论文。

本课程适合人群

计算机视觉与自动驾驶感知相关研究方向的本科/硕士/博士；
自动驾驶2D/3D感知相关算法工程人员；
想要转入基于Transformer感知算法的小伙伴；
工作上需要提升的算法工程人员及企业技术管理人员；

本课程需要具备的基础

具有一定的python和pyTorch基础，熟悉深度学习常用的一些基础算法；
对2D感知包括检测与分割等基础方案有一定了解；
一定的线性代数和矩阵论基础；
电脑需要自带GPU，能够通过CUDA加速（显存至少12GB）；

学后收获：

能够对近期基于Transformer的分割与检测模型有系统和深入的理解。
学习到如何构建自己的Transformer感知系统来解决一些多模态的任务。
能够熟练实现一些Transformer的分割和检测算法，并掌握其在自动驾驶系统中算法改进与应用，达到代码级别的理解。
学完本课程可以开展自己的关于Transformer的分割与检测上研究工作或者算法工程上新的方法设计。
认识多行业从业人员与学习合作伙伴，并在交流中达到更加深入的理解。

开课时间

2023.9.8号正式开课，加入我们一起学习基础，开课后2个月结课，离线教学，微信群内答疑（交流环境非常好，非常重要的部分）！

课程咨询

扫码加入学习！

添加小助理咨询并领取课程大礼包！

(微信：AIDriver004)