CVPR (《28篇论文、6 大主题带你一览 CVPR 2020 研究趋势》学习笔记一图像识别,检测和分割)

原文链接:https://mp.weixin.qq.com/s/MkEwjHVC9M1JtdzZZdmeFw

图像识别,检测和分割

PointRend:将图像分割作为渲染

论文地址:https://arxiv.org/abs/1912.08193    

图像分割模型(例如Mask R-CNN)通常在有规则网格上运行:

输入图像是像素的规则网格,它们的隐藏表示是规则网格上的特征向量,其输出是规则网格上的标签图。但是,规则网格会不必要地在平滑区域上进行采样,同时对目标边界进行欠采样,这通常会导致轮廓模糊。

这篇论文提出将图像分割视为一种渲染问题,并采用计算机图形学中的经典思想来高效地渲染高质量的标签图。这是使用被称为PointRend的神经网络模块来完成的。PointRend将在常规网格上定义的给定数量的CNN特征图作为输入,并在更精细的网格上输出高分辨率预测。这些精细的预测仅在经过精心选择的点上进行,这些点被选择为靠近高频区域,例如我们不确定的预测(即类似于自适应细分)的目标边界,然后对其进行上采样,并使用一个小副分目来从这些点状特征进行预测。

带有噪声的自训练Student改善ImageNet分类

论文地址:https://arxiv.org/abs/1911.04252

半监督学习方法在少数据环境下效果很好,但是在有大量标记数据的情况下,完全监督学习的效果仍然是最好的

在这篇论文中,作者重新审视了这一假设,并表明即使在标签数据丰富的情况下,有噪声的自训练也能表现很好。 

该方法使用了大量的无标签图像(即不同于ImageNet训练集分布),并且包括三个主要步骤:

1. 首先,在有标签的图像上训练 teacher 模型,然后使用训练好的 teacher模型在无标签的图像上生成伪标签

2. 接着将其用于在有标签图像和伪标签图像的组合上训练student模型,student模型比teacher模型更大(例如,从EfficientNetB0开始到EfficientNetB3),并受到注入的噪声(例如 dropout)的训练

3. 再然后,该student被视为teacher ,把最后两个步骤重复几次以重新标注无标签数据并训练一个新的student模型。最后一个模型在ImageNet  top-1 上实现了SOTA性能,并且显示出更高的鲁棒性。

杜鹃小结:1. 教师培训   2. 培训好的老师教学生,学生数量很大   3. 教出来的学生也成为了老师,老师们一起教新学生 

设计网络设计空间

论文地址:https://arxiv.org/abs/2003.13678

这篇论文不着重于设计单个网络实例,而是着重于设计参数化网络种群的网络设计空间,以便为快速和简单的网络找到一些指导性设计原则。

论文所提出的方法着重于寻找一个好的模型种群而不是好的模型单例(例如NAS:神经架构搜索)。基于分布估计的比较范式,此过程包含初始化设计空间A,然后引入新的设计原理以获得新的和细化的设计空间B,其中包含更简单和更好的模型。重复该过程,直到生成的种群中包含更鲁棒且泛化良好的模型为止。

EfficientDet:可扩展且高效的目标检测 

论文地址:https://arxiv.org/abs/1911.09070

EfficientDet是目标检测中的一个STOA模型,在广泛的资源限制下具有更高的效率。

EfficientDet具有EfficientNet的骨干架构,并且包括两个新的设计选择:一个具有双向拓扑结构或BiFPN 的双向特征金字塔网络(FPN),以及一个在合并不同比例的特征时使用学习的权重。此外,该网络采用复合缩放设计,其中骨干,类/框网络和输入分辨率可以联合起来共同适应各种资源限制,而不是像以前的工作那样简单地使用更大的骨干网络。

动态卷积:卷积核上的注意力

论文地址:https://arxiv.org/abs/1912.03458

轻量的 CNN 网络,例如MobileNetV2的主要问题之一是由于受限的深度(即层数)和宽度(即通道数)而无法保持较低的计算要求,因此它们的表示能力有限。在本文中,作者提出了动态卷积通过将多个并行卷积的结果与注意力权重相加来提高卷积层的能力,而不会显着增加计算量。

动态卷积由使用共享相同卷积核大小和输入/输出维数的K个卷积核(而不是单个操作)组成,然后使用由较小注意力模块产生的注意力权值来汇总其结果。为了更快地进行训练,内核权值被限制为三角形,其中每个注意力权值在[0,1]之间,且总和等于1。

猜你喜欢

转载自blog.csdn.net/dujuancao11/article/details/107014560
今日推荐