【论文阅读】Realistic Datasets and A Strong Baseline

导读

论文:arxiv.org/abs/2005.11…

代码:github.com/valencebond…

行人属性识别(Pedestrian Attributes Recognition,PAR),从预定义的属性列表中预测一组属性来描述该行人的特征。下面是文中的一张图,比如,蓝色框中识别出来这个人的属性有:短发、戴眼镜、学士服、黑裤子、黑鞋、蓝色自行车、男性等。

本文为此细分任务提出了一个可靠的baseline。

简介

文章针对目前常用的行人数据集PETA和RAP中存在的问题进行了纠正。因为数据集中存在不少相同的行人,训练集中和测试集中包含了同一人的图像且图像间的差异很小。这这会让一些方法准确率被高估。并且文章在修正后的数据集上做了一个baseline。可以明确发现当训练集和测试集没有人员重复时,模型的准确率会显著下降

image.png

方法

行人属性识别可以主要看成两类任务。

multi-task learning:多任务学习指的是将每一类属性识别作为一个任务,前面共享神经网络参数,最后N个全连接层并列,各负责一个属性任务的分类。

multi-label learning:多标签学习是将所有分类作为一个任务处理,用一个全连接层对属性分类,只是预测的不是单一类别,而是类别列表。

本文的baseline是将此问题看成了多任务学习。训练的详细参数如下:

  • 骨干网络:ResNet50
  • 输入图像大小:256 * 192,使用随机水平镜像
  • SGD,momentum=0.9,weight decay = 5e-4
  • 初始学习率 0.01
  • batchsize = 64
  • plateau学习率衰减策略,衰减比例0.1
  • 训练30个epoch

实验对比

修正后的数据集对比

image.png SOTA对比

image.png

猜你喜欢

转载自juejin.im/post/7124973539312009246