文献阅读(CV) Monocular 3D multi-person pose estimation via predicting factorized correction factors

动机:为什么作者想要解决这个问题?

  • 在单个图像中恢复多人的 3D 姿态仍然是一个具有挑战性的问题

贡献:作者在这篇论文中完成了什么工作(创新点)?

  • 采用自上而下结构解决3D multiperson pose estimation (3D-MPPE)问题

  • 提出了一个通用框架

    the 3D localization of persons:用于根深度估计和根的二维坐标估计。
    [1]中提出(已阅读)可以通过用一个校正因子调整投影区域来估计人根的深度。本文中提出了一种更有效的基于学习的方法,具体来说,人的投影区域可能受到多种因素的影响,包括人的深度、高度、姿势,甚至是相互遮挡,而不是单一因素。因此之前提出的校正因子可以分解为多个因子,以更好地估计一个人根的深度。因此,本文设计了一个 3D 定位网络来单独预测这些分解的因素。因为人的深度与投影面积成反比,一旦获得这些因素,就可以在检测到的边界框之上计算人的深度

    relative 3D human pose estimation:
    提出了一个多尺度特征融合模块,并在相对 3D 人体姿态估计任务中引入了注意力机制[2]。这种设计使网络能够在上采样过程中整合多尺度信息,同时增强有效信息并抑制无效信息。

自己的看法

  • 没有2D姿态到3D姿态的介绍,而是生成了相对3D姿态和绝对深度,最后生成绝对3D人体姿态

参考文献

[1] Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image
[2] Coordinate attention for efficient mobile network design

猜你喜欢

转载自blog.csdn.net/qq_42980908/article/details/124828559