论文翻译：Stacked Hourglass Networks for Human Pose Estimation

摘要本文提出了一种新的卷积网络结构用于人体姿态估计。所有尺度上的特征都被处理和整合，以最佳地捕捉与身体相关的各种空间关系。我们展示了重复的自底向上、自顶向下处理与中间监督结合使用是如何提高网络性能的关键。我们将该体系结构称为“堆叠沙漏”网络，它基于连续的池化和向上采样步骤，这些步骤用于生成最终的一组预测。在FLIC和MPII基准上取得了最先进的结果，超过了所有最近的方法。

图1所示。我们的姿态估计网络由多个堆叠的沙漏模块组成，允许自底向上、自顶向下的重复推理。

在图像和视频中理解人的关键一步是准确的姿态估计。对于单一的RGB图像，我们希望确定人体重要关键点的精确像素位置。理解一个人的姿势和肢体的关节对于动作识别这样的高级任务是有用的，在人机交互和动画等领域也是一个基本工具。作为一个公认的视觉问题，姿态估计多年来一直困扰着研究人员各种艰巨的挑战。一个好的姿态估计系统必须对遮挡和严重变形有很强的鲁棒性，对罕见的和新奇的姿态有良好的鲁棒性，并且不受服装和灯光等因素引起的外观变化的影响。早期的工作利用鲁棒图像特征和复杂的结构预测解决了这些困难[1-9]:前者用于产生局部解释，而后者用于推断全局一致的姿态。

然而，卷积神经网络(ConvNets)[10-14]极大地改变了这一传统管道。卷积神经网络是许多计算机视觉任务性能爆发式提升的主要驱动因素。最近的位姿估计系统[15-20]普遍采用ConvNets作为其主要组成部分，在很大程度上取代了手工特征和图形模型;这种策略在标准基准上产生了巨大的改进[1,21,22]。

我们继续沿着这条轨道前进，并引入了一种新颖的“堆叠沙漏”网络设计，用于预测人体姿势。该网络在图像的各个尺度上捕获并整合信息。我们将这种设计称为沙漏，它基于池步骤的可视化以及用于获得网络最终输出的后续上行采样。与许多产生像素级输出的卷积方法一样，沙漏网络池的分辨率非常低，然后在多个分辨率上采样并组合特征[15,23]。另一方面，沙漏与以前的设计主要不同的是其更对称的拓扑。

我们通过端到端连续地将多个沙漏模块放置在一起来扩展单个沙漏。这允许跨尺度的重复自底向上、自顶向下的推断。与中间监控的使用相结合，重复的双向推断对网络的最终性能至关重要。最终的网络架构实现了对两个标准姿态估计基准(FLIC[1]和MPII)的最新技术的显著改进人类造成[21])。在MPII测试中，所有关节的平均精确度提高了2%以上，而对于更困难的关节，如膝盖和脚踝，则提高了4-5%。

随着Toshev等[24]引入“DeepPose”，人体姿态估计的研究开始从经典方法[1-9]转向深度网络。Toshev等人使用他们的网络直接回归关节的x、y坐标。Tompson等人的工作是[15]生成热图，方法是将一幅图像并行地运行在多个分辨率库中，同时捕捉不同尺度的特征。我们的网络设计很大程度上基于他们的工作，探索如何捕获跨尺度的信息，并调整他们的方法来结合不同分辨率的特性。

图2所示。由我们的网络产生的示例输出。在左边，我们看到最后的姿态估计提供的最大激活在每个热图。右边是热图样本。(从左至右:脖子、左肘、左腕、右膝、右脚踝)

Tompson等人[15]提出的方法的一个关键特征是卷积网络和图形模型的联合使用。他们的图形模型学习了典型的关节之间的空间关系。最近，其他一些人用类似的方法解决了这个问题[17,20,25]，他们在如何实现一元分数生成和成对比较相邻关节方面做了一些变化。Chen等人将[25]聚类检测到典型的方位，当他们的分类器进行预测时，可以获得额外的信息来指示相邻关节的可能位置。我们实现优越的性能，没有使用图形模型或任何显式建模的人体。

有几个连续预测方法的例子用于位姿估计。卡雷拉等人[19]使用他们所说的迭代错误反馈。输入中包含了一组预测，每一个通过网络的预测都会进一步改进这些预测。他们的方法需要多阶段的训练，每次迭代的权重都是共享的。Wei等人的[18]建立在多级位姿机[26]的工作上，但现在使用ConvNets进行特征提取。由于我们使用了中间监督，我们的工作在精神上与这些方法相似，但是我们的构建模块(沙漏模块)是不同的。胡[27]的架构与我们的更类似，也可用于多个阶段的预测，但他们的模型将权重限制在自底向上和自顶向下的计算部分，以及跨迭代。

Tompson等人在[15]工作的基础上使用级联来完善预测。这有助于提高效率和减少他们的方法的内存使用，同时提高定位性能在高精度范围[16]。一个考虑是，对于许多失败的情况下，在一个局部窗口的位置细化不会提供很大的改善，因为错误的情况往往包括闭塞或错误归属的四肢。对于这两种情况，任何在当地规模的进一步评估都不会改善预测。

姿态估计问题的变化包括使用额外的特征，如深度或运动线索。[28-30]还有一个更具有挑战性的任务，即多人同时进行注释[17,31]。此外，还有类似Oliveira等人[32]的工作，基于全卷积网络[23]进行人体部分分割。我们的工作主要集中在RGB图像中单个人姿态的关键点定位。

我们在堆叠前的沙漏模块与全卷积网络[23]等在多尺度处理空间信息进行密集预测的设计紧密相连[15,33 - 41]。Xie等[33]对典型的架构进行了总结。我们的沙漏模块与这些设计的区别主要在于它在自底向上处理之间更对称地分配容量(从高分辨率到低分辨率)和自上而下的处理(从低分辨率到高分辨率)。例如，全卷积网络[23]和整体嵌套架构[33]都侧重于自下而上的处理，而侧重于自上而下的处理，后者只包含跨多个尺度的预测合并(加权)。全卷积网络的训练也是分多个阶段进行的。

堆叠前的沙漏模块也与conv-deconv和编解码器架构有关[42-45]。Noh等[42]使用conv-deconv架构进行语义分割，Rematas等[44]使用该架构预测物体的反射率图。赵等人[43]通过增加重构损失，开发了监督学习、非监督学习和半监督学习的统一框架。
Yang等人的[46]采用了不跳过连接的编解码器架构来生成图像。拉姆等人。提出一种用于无监督/半监督特征学习的去噪自动编码器，具有特殊的“调制”跳过连接。这些网络的对称拓扑是相似的，但操作的性质是完全不同的，因为我们没有使用unpooling或deconv层。相反，我们依赖于简单的最近邻上行采样，并跳过自顶向下处理的连接。我们工作的另一个主要区别是，我们通过叠加多个沙漏来执行重复的自底向上、自顶向下的推断。

沙漏的设计
沙漏的设计是基于从各个层面获取信息的需要。而本地证据对于识别像脸和最后的姿势评估需要对整个身体有一个连贯的理解。
人的方向，他们的四肢的排列，和邻近的关节的关系是许多线索中最容易识别的不同比例的图像。沙漏是一种简单、最小化的设计，它能够捕获所有这些特性，并将它们结合在一起输出像素预测。

网络必须具有某种机制来有效地处理和整合跨尺度的特征。有些方法通过使用不同的管道来解决这个问题，这些管道在多种分辨率下独立处理图像，然后在网络中结合特征[15,18]。相反，我们选择使用带有跳过层的单个管道来在每个分辨率下保存空间信息。网络的最低分辨率为4x4像素，允许使用更小的空间过滤器来比较图像的整个空间的特征.

沙漏的设置如下:Convolutional和max pooling层用于处理非常低分辨率的特征。在每一个最大合用步骤中，网络分支并在原来的预合用的分辨率上应用更多的卷积。在达到最低分辨率后，网络开始自上而下的上采样序列和跨尺度的特征组合,为了将两个相邻分辨率的信息结合在一起，我们遵循Tompson等人[15]所描述的过程，对低分辨率进行最近邻的向上采样，然后在元素上添加两组特征。沙漏的拓扑结构是对称的，所以每一层都有对应的一层向上。

在达到网络的输出分辨率后，使用连续的两轮1x1卷积来产生最终的网络预测。网络的输出是一组热图，对于给定的热图，网络预测了每个像素点上一个节点存在的概率。完整的模块(不包括最后的1x1层)如图3所示。

图3所示。单个“沙漏”模块的演示。如图4所示，图中的每个框对应于一个剩余模块。整个沙漏的特性数量是一致的。

层实现
在保持整体沙漏形状的同时，在具体的层实现中仍然有一些灵活性。不同的选择可能会对网络的最终性能和训练产生适度的影响。我们探索了在我们的网络层设计的几个选项。最近的研究显示了1x1卷积的简化步骤的价值，以及使用连续的较小过滤器来捕获更大的空间上下文的好处。例如，可以将一个5x5滤波器替换为两个单独的3x3滤波器。我们测试了我们的整体网络设计基于这些见解交换不同的层模块。我们经历了一个网络性能的提升，从带有大过滤器和没有缩减步骤的标准卷积层切换到新的方法，如He等人[14]和基于“盗启”的设计[12]所提出的剩余学习模块。在这些设计类型的最初性能改进之后，各种额外的探索和修改对进一步提高性能或培训时间没有什么帮助。

图4所示。左:我们在整个网络中使用的剩余模块[14]。右:对中间监督过程的说明。网络分裂，并产生一套热图(用蓝色标出)，可以应用损失。1x1卷积对热图进行重新映射，以匹配中间特征的通道数量。这些特性与前面的沙漏中的特性一起添加。

我们的最终设计充分利用了剩余模块。大于3x3的过滤器从不被使用，瓶颈限制了每一层的参数总数，从而减少了总的内存使用。我们的网络中使用的模块如图4所示。为了将其置于完整网络设计的上下文中，图3中的每个框表示单个剩余模块。

在256x256的全输入分辨率下运行需要大量的GPU内存，因此沙漏的最高分辨率(因此最终的输出分辨率)是64x64。这并不影响网络产生精确联合预测的能力。整个网络从一个带有stride 2的7x7卷积层开始，接着是一个残差模块和一轮最大池，将分辨率从256降低到64。在图3所示的沙漏之前有两个后续的剩余模块。整个沙漏的所有剩余模块输出256个功能。

堆叠沙漏与中间监督
通过将多个沙漏端到端地叠加，将一个沙漏的输出作为输入输入输入到另一个沙漏，我们进一步发展了网络架构。这为网络提供了一种自底向上、自顶向下重复推理的机制，允许对整个图像的初步估计和特征进行重新评估。这种方法的关键是对中间热图的预测，我们可以据此应用损失。预测是通过每个沙漏产生的，网络有机会处理本地和全球上下文的特征。后续的沙漏模块允许再次处理这些高级特性，以进一步评估和重新评估更高层次的空间关系。这与其他姿态估计方法类似，这些方法在多个迭代阶段和中间监督下表现出了较强的性能[18,19,30]。

考虑只使用单个沙漏模块而应用中间监督的局限性。在管道中，什么是生成初始预测集的合适位置?大多数高阶特征只在低分辨率出现，除非在最后发生上采样。如果监控是在网络进行向上采样之后提供的，那么在更大的全球范围内，这些特征就没有办法相互重新评估上下文。如果我们想让网络最好地改进预测，这些预测不能只在局部尺度上进行评估。与其他联合预测的关系，以及总体背景和对整个图像的理解是至关重要的。在池化之前更早地应用监督是可能的，但在这一点上，给定像素上的特征是处理相对局部的接受域的结果，因此忽略了关键的全局线索。

使用堆叠的沙漏进行重复的自底向上、自顶向下推理可以减轻这些担忧。局部和全局的线索被整合到每个沙漏模块中，要求网络产生早期预测，要求它对图像有一个高层次的理解，而只是通过整个网络的一半。自底向上、自顶向下处理的后续阶段允许更深入地重新考虑这些特性.

这种在尺度之间来回切换的方法尤其重要，因为保留特征的空间位置对于完成最后的定位步骤至关重要。关节的精确位置是网络做出其他决策时必不可少的线索。对于像姿态估计这样的结构化问题，输出是许多不同特征的相互作用，这些特征应该聚集在一起，形成对场景的一致理解。矛盾的证据和解剖上的不可能是很大的泄露，在这条路线上的某个地方犯了一个错误，相互矛盾的证据和解剖上的不可能是很大的证据，表明在这条路线上的某个地方犯了错误，通过来回切换，网络可以在反复考虑特征的整体一致性的同时保持精确的局部信息。

我们通过一个额外的1x1卷积将中间预测映射到更多的通道，从而将它们重新整合到特征空间中。这些特性被添加回沙漏中的中间特性，以及前一个沙漏阶段输出的特性(如图所示)结果输出直接作为下面沙漏模块的输入，沙漏模块生成另一组预测。在最终的网络设计中，使用了8个沙漏。重要的是要注意，权重不是在沙漏模块之间共享的，并且使用相同的ground truth对所有沙漏的预测都应用了损失。损失和地面真相的细节描述如下。

我们在两个基准数据集FLIC[1]和MPII Human上评估我们的网络[21]。FLIC由取自电影的5003张图像(3987训练，1016测试)组成。这些图像被标注在上半身，大多数的人物都面对着相机。MPII Human Pose由大约25k幅带注释的多人图片组成，提供40k注释样本(28k training，11 k测试)。测试注释没有提供，所以在我们所有的实验中，我们都是在训练图像的子集上进行训练，同时在大约3000个样本的heldout验证集上进行评估。MPII由各种各样的人类活动的图像组成，具有挑战性的阵列广泛铰接的全身姿势。在给定的输入图像中，经常可以看到多个人物，但是如果没有图形模型或其他后处理步骤，图像必须传达所有必要的信息.

用于网络确定哪个人值得注释的信息我们通过训练网络来专门注释直接中心的人来处理这个问题。这是在FLIC中根据torsobox注释沿x轴居中完成的——不进行垂直调整或缩放归一化。对于MPII来说，使用所有图像提供的缩放和中心注释是标准的。对于每个样本，这些值用于裁剪目标人物周围的图像。然后将所有输入图像的大小调整为256x256像素。我们做包括r在内的数据扩充 ,这些值用于裁剪目标人物周围的图像。然后将所有输入图像的大小调整为256x256像素。我们进行数据增强，包括旋转(+/- 30度)和缩放(。75-1.25)。我们避免了图像的平移增强，因为目标人的位置是决定网络应该注释谁的关键线索。

该网络使用Torch7[48]进行训练，为了优化，我们使用rmsprop[49]，学习率2.5e-4。在12 GB上的训练大约需要3天英伟达TitanX GPU。在验证精度停滞后，我们将学习率降低了1 / 5。批量归一化[13]也用于改进培训。网络的一次转发需要75毫秒。为了生成最终的测试预测，我们通过网络运行原始输入和图像的翻转版本，并将热图平均起来(在验证上平均提高了1%)。网络的最终预测是给定节点的热图的最大激活位置。

与Tompson等人使用相同的技术，[15]用于监督。采用均方误差(MSE)损失将预测的热图与由二维高斯分布(标准差为)组成的地真热图进行比较1px)以关节位置为中心。为了提高在高精度阈值下的性能，在转换回图像的原始坐标空间之前，预测将在其下一个最高邻居的方向上偏移四分之一像素。在MPII人体姿态中，一些关节没有相应的位置地面实况注释。在这些情况下，接头要么被截断，要么被严重阻塞，所以为监督提供了所有零的地面真实热图。

评价
评估是使用正确关键点的标准百分比(PCK)度量来完成的，该度量报告了在地面真相的标准化距离内的探测的百分比。对于FLIC，距离由躯干大小归一化，对于MPII，由头部大小的一部分(称为PCKh)归一化。FLIC:结果见图6和表1。我们在FLIC上的结果非常有竞争力，肘部达到99% [email protected]，腕部达到97%。值得注意的是，这些结果是以观察者为中心的，这与其他人如何评价他们在FLIC上的输出是一致的。

MPII:我们在MPII人体姿态数据集的所有关节上取得了最先进的结果。的PCK曲线见表2图7。在腕部、肘部、膝盖和脚踝等困难的关节上，我们比最新的研究结果平均提高了3.5% ([email protected])，平均错误率从16.3%下降到了12.8%。最终肘部精度为91.2%，腕部精度为87.1%。网络在MPII上所做的示例预测如图5所示。

烧蚀实验
我们探讨了两个主要的设计选择:将沙漏模块堆叠在一起的效果，以及中间监管的影响。这些并不是相互独立的，因为我们在如何应用中间监督方面受到了限制，这取决于整体的建筑设计。单独应用，每一个都对性能有积极的影响，我们看到进一步提高训练速度和最终的姿态估计性能。我们来看看几种不同网络设计的训练速度。其结果如图8所示，显示了随着训练的进行，验证集的平均准确率。精度度量考虑所有的关节，不包括那些与头部和躯干有关的关节，以便更容易区分不同的实验。

图8所示。在培训过程中验证准确性的比较。手腕、肘部、膝盖和脚踝的平均精确度。不同的网络设计如图所示，圆用于指示何处有损失.

首先，为了探究堆叠沙漏设计的效果，我们必须证明性能的变化是架构形状的功能，而不是由于更大、更深入的网络的容量增加。为了进行比较，我们从一个由8个沙漏模块堆叠在一起的基线网络开始工作。每个沙漏在每个分辨率上都有一个残余模块，如图3所示。我们可以为各种网络安排打乱这些层。沙漏数量的减少会导致每个沙漏的容量增加。例如，一个相应的网络可以堆叠四个沙漏，每个沙漏上有两个连续的剩余模块分辨率(或两个沙漏和四个剩余模块)。这在图9。所有的网络共享相同的参数和层数，尽管在使用更多的中间监督时略有不同。

图9所示。左:演示从中间阶段(第二个沙漏)(左)到最终预测(第八个沙漏)的变化的示例验证图像(右)。右:在网络的中间阶段的验证精度比较不同的堆叠安排。

在实施更多的中间监管时，略有不同。为了查看这些选择的效果，我们首先比较在沙漏的每个阶段有4个剩余模块的两层网络，以及有8个剩余模块的单个沙漏。在图8中，它们分别称为HG-堆叠和HG。在使用堆叠设计时，尽管拥有大致相同的层数和参数，但在训练方面可以看到适度的改进。接下来，我们考虑中间产品的影响在使用堆叠设计时，尽管拥有大致相同的层数和参数，但在训练方面可以看到适度的改进。接下来，我们考虑中间监管的影响。对于两层网络，我们按照本文所描述的程序进行监控。将同样的想法应用到单个沙漏中是很重要的，因为高阶全局特征只在较低分辨率下出现，而且跨尺度的特征直到后期才会合并。我们探索在网络的不同点上应用监督，例如在池之前或之后以及在不同的分辨率下。性能最好的方法如图8所示，在最后的输出分辨率之前，在接下来的两个最高分辨率上采样后施加中间监督。这种监督确实改善了性能，但还不足以超过包含堆叠的改进(hg -堆叠- int).

在图9中，我们比较了具有大致相同数量参数的2-、4-和8-堆栈模型的验证准确性，并包括它们中间预测的准确性。累积分数每增加87.4%至87.8%，最终成绩均略有改善88.1%。这种影响在中间阶段更为显著。例如，在每一个网络的中间部分，相应的中间预测精度分别为:84.6%，86.5%和87.1%。例如，在每一个网络的中间部分，相应的中间预测精度分别为:84.6%，86.5%和87.1%。注意，精度的中途8栈网络的最终精度略低于2栈网络。

观察网络早期所犯的错误以及后来所纠正的错误是很有趣的。图9显示了一些示例。常见的错误表现为把别人的关节搞错了，或者把左和右搞错了.

正确的。对于运行的图形，从最终的热图可以明显看出，对于网络来说，左右之间的决定仍然有点模糊。鉴于图像的外观，这种混淆是合理的。一个值得注意的情况是中间的例子，网络最初在图像中可见的手腕上激活。经过进一步的处理，热图在原来的位置上完全没有激活，而是为被遮挡的手腕选择了一个合理的位置。

很多人
当一个图像中有多个人物时，一致性的问题就变得尤为重要。网络必须决定对谁进行注释，但是在交流谁应该得到注释方面有有限的选择。对于本工作的目的，提供的唯一信号是目标人员的中心和缩放，相信输入将足够清晰，可以解析。不幸的是，这偶尔会导致模棱两可的情况非常接近甚至重叠，如图10所示。由于我们正在训练一个系统来为单个人生成姿态预测，因此在不明确的情况下的理想输出将只对一个数字的关节做出承诺。即使预测的质量较低，这也将显示出对手头任务的更深理解。估计手腕的位置而不考虑手腕可能属于谁，这不是位姿估计系统所期望的行为。

图10中的结果来自一个MPII测试图像。该网络必须对男孩和女孩进行预测，为了做到这一点，需要提供他们各自的中心和比例标注。使用这些值裁剪网络的输入图像，得到该图形的第一个和第三个图像。在一幅720x1280像素的图像中，这两位舞者的中间标注仅相差26像素。定性地说，两个输入图像之间最明显的区别是尺度的变化。这种差异足以使网络完全改变其估计并预测注释

图10所示。输入图像的尺度轻微的平移和改变所产生的差异。网络根据中心图形决定为谁生成注释。输入图像的缩放和右移足以让网络改变预测.

图11所示。左:当只考虑可见(或不可见)接头时，验证时比较性能的PCKh曲线。右:精确回忆曲线，显示在对热图的平均激活或最大激活阈值设定时，预测某个连接处是否存在注释的准确性

针对多人的更全面的注释管理超出了本工作的范围。该系统的许多故障案例都是由于混淆了多个人的连接点而导致的，但在许多图形严重重叠的示例中，该网络将适当地挑出一个图形进行注释，这是有希望的.

咬合表现很难评估，因为它经常分为两种不同的类别。第一种是关节是不可见的，但它的位置是明显的情况下，给定的背景图像。MPII通常为这些关节提供地面真实位置，并且附加注释表明它们缺乏可视性。另一方面，另一种情况是，完全不知道某个关节的位置。例如，只有上半身可以看到的图像。在MPII中，这些关节没有与它们相关联的ground truth注释。

我们的系统没有使用额外的可见性注释，但是我们仍然可以看看可见性对性能的影响。在我们拉出的验证集中，大约75%的带有注释的肘部和手腕都是可见的。在图11中，我们比较了整个验证集的平均性能、四分之三可见关节的性能和其余四分之一不可见关节的性能，当只考虑可见关节时，手腕的精度从85.5%上升到93.6%(验证性能略低于测试集的87.1%)。另一方面，仅闭塞关节的表现为61.1%。对于肘关节，可见关节的精确度从基线的90.5%上升到95.1%，而闭塞关节的精确度则下降到74.0%。遮挡显然是一个重大的挑战，但网络仍然在大多数情况下作出了强有力的估计。在很多例子中，网络预测和地面真值标注在有效位置上可能不一致，图像的模糊性意味着无法确定哪一个是真正正确的。

我们还考虑了更极端的情况，关节可能严重闭塞或截断，因此没有任何注释。在评估位姿估计系统时使用的PCK度量并不能反映网络对这些情况的识别程度。如果没有为一个关节提供ground truth注释，则不可能评估系统所做预测的质量，因此不计入最终报告的PCK值。正因为如此，即使对完全闭塞或截断的关节的预测毫无意义，对所有关节的预测也没有害处。在一个真实的系统中使用，一定程度的微位移是必要的，并且理解在一个特定的关节上不能做出好的预测是非常重要的。我们观察到，我们的网络提供了一致和准确的预测，是否一个ground truth注释可用于一个关节。

我们考虑踝关节和膝关节来进行分析，因为它们最常被遮挡。下肢经常被从图像中裁剪出来，如果我们总是想象我们网络的所有关节预测，在这些情况下做出的荒谬的下身预测会让示例姿势看起来不可接受。为了简单地过滤掉这些情况，我们检查一下在给定相应的关节的情况下，人们可以如何很好地确定其注释的存在热图激活。我们考虑对热图的最大值或平均值进行阈值设定。其精确-召回曲线如图11所示。我们发现，仅根据热图的平均激活度，就可以正确评估AUC为92.1%的膝关节注释和AUC为96.0%的踝关节注释的存在。这是对2958个样本的验证集进行的，其中16.1%的可能的膝盖和28.4%的可能的脚踝没有ground truth注释。这是一个很有希望的结果，证明了热图可以作为一个有用的信号来指示图像中截断和严重遮挡的情况。

我们演示了堆叠沙漏网络产生人体姿态估计的有效性。该网络通过一个简单的机制来对最初的预测进行重新评估和评估，从而处理了一系列多样化和具有挑战性的姿态。对于培训网络来说，中间监督至关重要，在堆叠的沙漏模块的背景下工作效果最好。虽然网络仍然不能很好地处理一些困难的情况，但是总的来说，我们的系统对各种挑战显示出了强大的性能，包括严重遮挡和多人近距离接触。

论文翻译：Stacked Hourglass Networks for Human Pose Estimation

猜你喜欢