【论文阅读笔记】How Robust is 3D Human Pose Estimation to Occlusion?

论文地址:https://arxiv.org/abs/1808.09316

论文总结

  本文主要在生成遮挡策略的方向上进行实验,得到实验结果和对比。但由于当时的精度不是特别高,所以其中的一些结论现如今不一定完全适用。

  实验了几种策略,单个矩形框、多个矩形框、多个条状、多个圆形、VOC对象嵌入等方式,如下图所示。

  论文的结论是,VOC的嵌入式遮挡策略,对于多重遮挡情况的泛化能力较好。

论文介绍

  本文自己实现了一个全卷积网络,预测3D的heatmap,目标是图片空间的x,y以及相对根节点的z。遮挡的策略,是在单张RGB图像上进行的。单张RGB图像也就是网络的输入。在该网络上,使用遮挡数据增强训练的结果,不仅对受遮挡对象的鲁棒性增强了,也对没有遮挡的对象有所提升。作者认为这是由于遮挡所带来的的正则化的表现结果。
  文中使用L1损失训练3D的网络。

实验设置

  由于网络是单张图片输入的,所以需要进行去取冗余的操作:视频序列中,只有与上一个持有帧距离30mm以上的才会加入训练集;
  输入图片需要将人物居中,放大到 256 ∗ 256 256*256 256256。将人体边界框较长的部分缩放到图片长度的80%。
  进行遮挡的数据增强,使用黑色块或者从VoC 2012中提取分割对象进行遮挡数据的生成。遮挡程度在 0 % ∼ 70 % 0\%\sim70\% 0%70%之间。训练的VoC对象和测试的VoC对象进行严格的分离,使用的random erasing为RE-0 variant。遮挡的策略都是单独进行的,用以进行对比,遮挡的概率为50%。
  骨干网络为ResNet-50v1,使用Adam优化器,mini-batch为64,训练40个epoch。

实验结果

  进行对比的论文是《Coarse-to-fine volumetric prediction for single-image 3d human pose》,其MPJPE为64.8。本文自己实现的网络MPJPE为63.3。
  各遮挡数据增强实验的结果如下:

  结论如下:

  1. 测试时,圆形遮挡导致的误差最大,原因不明
  2. 测试时,其余的遮挡策略中,矩阵是问题最小的遮挡方式;
  3. 训练时,单个矩形数据增强的情况,只能适用于单个或多个矩形的遮挡,对其他的遮挡类型泛化不行,尤其是圆形表现的最糟糕;
  4. 训练时,多个矩形数据增强的情况,比单个矩形数据增强的情况要好一些,但也难以泛化;
  5. 训练时,圆形遮挡数据增强的情况,可以泛化到简单的几何遮挡,但对相对真实的VoC对象遮挡没有帮助;
  6. 训练时,VoC对象数据增强的情况,可以泛化到简单的几何遮挡和其他的VoC对象(训练的VoC对象和测试的VoC对象是严格分开的)

猜你喜欢

转载自blog.csdn.net/qq_19784349/article/details/109032221
今日推荐