【论文翻译】PyMAF-X: Towards Well-aligned Full-bodyModel Regression from Monocular Images

摘要

        我们提出了PyMAF-X,一种基于回归的方法,从单个图像中恢复全身参数模型。这个任务是非常具有挑战性的,因为微小的参数偏差可能会导致估计网格和输入图像之间明显的不对齐。此外,当将特定部位的估计集成到全身模型时,现有的解决方案往往会降低对准或产生不自然的手腕姿势。为了解决这些问题,我们在我们的回归网络中提出了一个金字塔网格对齐反馈(PyMAF)循环,用于对齐良好的人体网格恢复,并将其扩展为PyMAF- x,用于恢复具有表达性的全身模型。PyMAF的核心思想是利用特征金字塔,并根据网格-图像对齐状态显式地校正预测参数。具体而言,对于当前预测的参数,网格对齐的证据将相应地从更精细的特征中提取出来,并反馈给参数校正。为了增强网络的对齐感知,在引入空间对齐注意的同时,采用辅助的密集监督来提供网格-图像对应引导。当将PyMAF扩展到全身网格恢复时,在PyMAF- x中提出了一种自适应集成策略,以生成自然的手腕姿势,同时保持特定部位估计的良好对齐性能。我们的方法的有效性在几个身体和全身网格恢复的基准数据集上得到了验证,其中PyMAF和PyMAF- x有效地改善了网格-图像对齐,并取得了最新的结果。包含代码和视频结果的项目页面可以在https://www.liuyebin.com/pymaf-x上找到。

1. 介绍

 图1所示。PyMAF改善了估计网格的网格-图像对齐。底部:PyMAF-X产生了与自然手腕姿势对齐的全身网格

        近年来,基于回归的范式在从单目图像中恢复身体[1],[2],[3],[4],[5],[6],[7],手[8],[9],[10],[11],甚至全身[12],[13],[14],[15]模型中兴起。这些方法[1],[2],[3],[16]学习直接从图像中以数据驱动的方式预测模型参数。尽管基于回归的方法具有很高的效率和有希望的结果,但通常在预测网格和图像观测之间存在对齐粗糙问题。

 

 图2所示。(a)常用的迭代误差反馈。(b)提出的网格对齐反馈。(c)从特征金字塔中提取的网格对齐证据。

        当恢复参数体或全身模型[17],[18]时,沿着运动链积累的微小旋转误差可能导致关节位置的明显漂移(见图1中左上角的例子),因为关节位姿表示为相对旋转相对于它们的父关节。为了生成对齐良好的结果,基于优化的方法[18],[19],[20]在目标函数中包含数据项,从而可以显式优化网格投影与二维证据之间的对齐。类似的策略也用于基于回归的方法[1],[2],[3],[16],在训练过程中对估计网格的投影施加2D监督。然而,在测试期间,这些深度回归器要么是开环的,要么只是在其体系结构中包含迭代错误反馈(IEF)循环[1,hmr]。如图2(a)所示,IEF在其反馈环路中重复使用了相同的全局特征,使得回归器在推理阶段几乎感知不到网格-图像失调。

        在之前的[21],[22],[23],[24]中,神经网络在减小特征图的空间大小时倾向于保留高级信息,而舍弃详细的局部特征。为了利用回归网络中的空间信息,提取像素级上下文以实现细粒度感知至关重要。一些尝试已经利用像素表示,如部分分割[25]或密集对应[26],[27]在他们的回归网络。尽管考虑了像素级的证据,但仅基于高分辨率上下文,这些方法在学习结构先验的同时掌握空间细节仍然具有挑战性。

        在上述观察的激励下,我们在回归网络中设计了一个金字塔网格对齐反馈(PyMAF)循环,以利用多尺度和位置敏感上下文来实现更好的网格图像对齐。该方法的核心思想是根据对准状态显式地逐步修正参数偏差。在PyMAF中,将根据估计网格的2D投影从空间特征中提取网格对齐的证据,然后反馈给回归器进行参数更新。如图2所示,与常用的迭代误差反馈环[1],[28]相比,网格对准反馈环具有更丰富的参数校正特征。为了利用多尺度环境,从特征金字塔中提取网格对齐的证据,以便基于低分辨率特征的粗对齐网格可以用大步长进行校正。为了增强这些网格对齐的特征,在最高分辨率的特征上施加了一个辅助任务,以推断像素级密集对应,指导图像编码器在空间特征图中保留最相关的信息。同时,引入空间对齐注意机制,融合网格和网格对齐特征,使回归器能够感知整个图像上下文。

        由于SMPL家族包括手[29]和脸[30]模型,PyMAF可以很容易地修改重建手和脸网格。我们充分利用三个特定部位的PyMAF网络作为部分专家模型来预测身体、手和面部参数,并提出PyMAF- x用于表达全身网格恢复。受益于每个基于PyMAF-X的良好对齐结果,即使使用最简单的集成策略[13],PyMAF-X也可以在常见场景中生成可信的全身网格结果。然而,如图1所示,简单的的“CopyPaste”集成在具有挑战性的情况下可能会导致不自然的手腕姿势。为了解决这一问题,我们提出了一种自适应的整合策略来调整肘部姿势的扭转旋转,使肘部和手腕的姿势更加兼容。通过这种方式,肘关节的更新扭转旋转可以作为手腕关节的补偿,并有助于在全身模型中产生自然的手腕姿势。此外,由于肘部姿势的扭转部分[31]是围绕肘部到手腕骨的旋转,它几乎没有改变身体和手部关节的位置,这是保持身体和手部良好对齐表现的关键。与现有的全身解决方案[12],[13],[14],[15]不同,我们的方法不依赖于额外的网络来推断手腕姿势,因此绕过了由于全身网格注释不足而引起的学习问题。

        这项工作的贡献可以总结如下:

•为基于回归的人体网格恢复提出了网格对齐反馈循环,其中利用网格对齐证据显式地纠正参数错误,以便估计的网格可以更好地与输入图像对齐。

•将特征金字塔与网格对齐反馈循环结合,以便回归网络可以利用多尺度上下文。这产生了金字塔网格对齐反馈(PyMAF)循环,这是一种用于人类网格恢复的新架构。

•在PyMAF中引入了一个辅助的像素级监督和空间对齐注意,以增强meshalighed特征,使它们能够提供更多的信息,相关的,并意识到整个图像上下文。

•PyMAF被进一步扩展为PyMAF- x用于全身网格恢复,其中提出了一种具有肘部扭曲补偿的自适应集成策略,以避免不自然的手腕姿势,同时保持身体和手部估计的对齐。

这项工作的早期版本已作为会议论文[7]发表。我们从三个方面对之前的作品[7]进行了重大的扩展。首先,引入空间对齐注意力对PyMAF进行了改进,提高了精度,有效地加强了特征学习,进一步提高了meshimage对齐。其次,PyMAF超越了身体网格恢复,并扩展到从单目图像重建手和全身模型。特定于身体和手部的PyMAF的良好对齐性能使其更有希望生成良好对齐的全身网格。第三,提出了一种自适应整合策略来整合身体和手部专家的预测。这样的策略有效地解决了不自然的手腕问题,同时保持部分特定的对齐。基于这些更新,我们的最终方法PyMAF-X在定性和定量上都获得了最新的结果,为从单目图像中良好对齐和自然恢复全身模型提供了新的解决方案。

2.相关工作

2.1单目人体网格恢复

近年来,人体网格的单目恢复是研究的热点。为了达到相同的目标,即产生对齐良好且自然的结果,研究界研究了两种不同的人体网格恢复模式。在本小节中,我们将简要回顾这两种范例,并将读者推荐到[32]以获得更全面的调查

        基于优化的方法。该领域的前沿工作主要集中在参数模型(如SCAPE[33]和SMPL[17])拟合关键点和轮廓[19],[34],[35]等二维观测的优化过程。在目标函数中,先验项用于惩罚不自然的形状和姿态,而数据项用于测量网格重投影与二维证据之间的拟合误差。基于该范式,研究了不同的更新,将二维/三维人体关节[19],[36],轮廓[20],[37],部分分割[38],密集对应[39]等信息纳入拟合过程。尽管这些基于优化的方法获得了良好的结果,但它们的拟合过程往往较慢,对初始化很敏感。最近,Song等[40]在拟合过程中利用了学习梯度下降。虽然该解决方案利用了丰富的二维姿态数据集,缓解了传统基于优化的方法中的许多问题,但它仍然依赖于二维姿态的准确性,并打破了端到端学习。另外,我们的解决方案支持端到端学习,也能够利用丰富的2D数据集,这要感谢在为2D数据集生成更精确的伪3D地面真相方面的进展(例如,SPIN [3], EFT[41]和NeuralAnnot[42])。

        基于回归的方法。另外,利用神经网络强大的非线性映射能力,最近基于回归的方法[1],[3],[12],[16],[25],[43],[44],[45]在直接从单眼图像预测人类模型方面取得了重大进展。这些深度回归器在学习过程中以二维证据为输入,在[1]、[46]、[47]、[48]、[49]、[50]、[51]、[52]等不同类型的监督信号下,以数据驱动的方式隐式学习模型先验。为了减轻回归器的学习困难,还设计了不同的网络架构来利用代理表示,如剪影[16],[53],2D/3D关节[4],[5],[16],[39],[43],[44],[46],[54],[55],分割[25],[56]和密集对应[26],[27]。这种策略可以受益于合成数据[26],[57]和代理表示估计的进展[24],[58],[59],[60],[61]。在这些回归器中,尽管在训练过程中对重新投影的模型施加了监督信号来惩罚不匹配的预测,但它们的架构在推理阶段几乎无法感知到不匹配。相比之下,所提出的PyMAF是一个训练和推理的闭环,这使得我们的回归器中的反馈循环能够利用空间证据来更好地对估计的人类模型进行网格-图像对齐。

        直接从图像中回归模型参数是非常具有挑战性的,即使对神经网络也是如此。现有方法也提供了非参数解来重建人体模型。其中,采用体积表示[53],[62],网格顶点[2],[45],[63],位置映射[64],[65],[66],[67]作为回归目标。使用非参数表示作为回归目标更容易利用高分辨率特征,但需要进一步处理才能从输出中检索参数模型。此外,如果没有额外的结构先验,非参数输出的网格表面往往比较粗糙,对姿态重叠更敏感。在我们的解决方案中,深度回归器在多个尺度上使用空间特征,用于高级和细粒度的感知。它直接生成参数化模型,不需要进一步处理。

        最近,也有许多努力致力于实现或处理多人恢复[55],[68],[69],[70],[71],[72],[73],视频输入[74],[75],[76],[77],[78],[79],遮挡[6],[27],[80],[81],更精确的形状[57],[82],[83],模糊性[84],[85],相机估计[86],[87],不平衡数据[88],[89],伪地面真相生成[3],[41],[42],以及服装人体重建[90],[91],[92],[93]。我们的工作是与他们互补的,专注于设计回归器架构,用于单幅图像良好对齐的身体和全身网格恢复

2.2全身网格恢复

        与仅针对身体的[1],[2],[3],[4],[27],仅针对手的[8],[10],[11],[94],[95],[96],[97],[98],[99],[100],[101],以及仅针对面部的[102],[103],[104],[105],[106],[107]网格恢复的大量解决方案相比,全身网格恢复由于其挑战性和缺乏注释数据集而较少受到关注。与纯体网格恢复算法的发展类似,全身网格恢复领域的研究也始于全身模型的提出,包括Frank[108]、Adam[108]、SMPL-X[18]、GHUM[109]等,以及相应的基于优化的方法[18]、[36]、[108]、[109]、[110]。最近,一些基于回归的方法[12],[13],[14],[15],[111]被提出来克服基于优化的方法的缓慢和不自然的问题。

        继ExPose[12]的开创性工作之后,基于回归的方法[12],[13],[14],[15],[112],[113],[114]通常由三个特定于部件的模块组成,即部件专家,从原始输入中裁剪的相应部件图像中预测身体、手和面部的参数。它们的区别主要在于身体结构研究的体系结构和集成零件估计的策略。由于部分研究基本上是从身体或手工网格恢复解决方案中选择的,因此整合策略来缝合独立估计成为基于回归的全身方法的一个重要方面。整合身体和手估计的最直接的策略是“复制-粘贴”[12],[13]。为了获得更自然的积分结果,最近最先进的方法[13],[14],[112]中提出了基于学习的策略。例如,FrankMocap[13]根据身体和手部网络预测的手腕位置之间的距离来学习纠正手臂姿势。Zhou等人[112]在手部专家的学习中纳入了身体特征,因此预测的手部姿势可以与手臂更加兼容。PIXIE[14]引入了一个可学习的调节程序来合并身体和手的特征,以回归手腕和手指的姿势。以上解决方案都依赖于附加网络在有身体信息的情况下预测或修正腕部姿态,这通常不如手专家预测的原始手姿态,导致手部部位的对准度下降。最近,Hand4Whole[15]提出根据选定的手部关节位置来学习手腕姿势,但没有考虑手臂姿势的兼容性。与现有的解决方案相比,pymaff - x采用手腕和肘部姿势的扭转组件[31][115]进行调整,从而产生自然的手腕旋转,同时在集成过程中保持每个部分专家的良好对齐性能。此外,我们的动机和方法也不同于之前的工作[44],[116],在逆运动学问题中分解扭转分量。

2.3回归任务中的迭代拟合

          将拟合过程与回归任务结合的策略也在文献中进行了研究。对于人体网格恢复,Kolotouros等人[3]将迭代拟合程序与训练程序结合起来,以生成更准确的地面真相,以便更好地监督。已经进行了多次尝试来变形人体网格,以便它们能够与中间估计(如深度图[117]、部分分割[113]和密集对应[39])对齐。这些方法采用中间估计作为拟合目标,因此依赖于它们的质量。相比之下,我们的方法使用当前估计的网格来提取深度特征进行细化,从而实现深度回归器的完全端到端学习。

        从更广泛的角度来看,在其他计算机视觉任务中,迭代拟合策略已经付出了巨大的努力,包括面部标志定位[118],[119],人/手姿态估计[28],[120]等。对于一般对象,Pixel2Mesh[121]通过利用感知特征逐步变形初始椭球。遵循这些工作的精神,我们开发新的策略来提取细粒度的证据,并在人类网格恢复的背景下贡献新的解决方案

3.方法

在本节中,我们将详细介绍我们的方法的技术细节。我们首先提出了一个强大的基于回归的人体网格恢复模型PyMAF,然后将其扩展到用于全身网格恢复的PyMAF- x。

3.1 pymaf用于身体网格恢复

如图所示。PyMAF由一个特征金字塔组成,以粗到细的方式进行网格恢复。通过利用从空间特征图中提取的网格对齐证据,粗对齐预测将得到改进。为了增强网格对齐的证据,在图像编码器上施加辅助密集预测任务,同时应用空间对齐注意来融合网格和网格对齐特征。

3.1.1身体模型回归的特征金字塔

我们的图像编码器旨在生成一个从粗到细粒度的空间特征金字塔,它提供了不同尺度水平的姿势人的描述。该特征金字塔将用于SMPL模型的后续预测,具有姿态、形状和相机参数Θ = {Θ, β, π}。

        形式上,编码器以图像I为输入,最后输出一组空间特征\left \{\phi _{s}^{t} \in \mathbb{R} ^{C_{s}\times H_{s}^{t}\times W_{s}^{t}} \right \}_{t=0}^{T=1},其中H_{s}^{t}W_{s}^{t} 单调递增。在t级,基于特征映射\phi _{s}^{t},使用一组采样点X^{t}提取逐点特征。具体来说,对于X^{t}中的每个2D点x,利用双线性采样从\phi _{s}^{t}中提取出相应的逐点特征\phi _{s}^{t}(x)\in \mathbb{R}^{C_{s} \times 1}。这些逐点特征将通过MLP(多层感知器)进行降维,并进一步连接在一起作为特征向量\phi _{p}^{t},即:

其中F(·)表示特征采样和处理操作,⊕表示拼接,f(·)为MLP。然后,参数回归器R_{t}以特征\phi _{p}^{t} 和参数\Theta _{t} 的当前估计作为参数残差的输入和输出。然后将参数更新为\Theta _{t+1},将残差添加到\Theta _{t}。对于t = 0 阶段, \Theta _{0}采用训练数据计算的平均值参数。

        给定每一层的参数预测Θ(为简单起见省略下标t),可以相应地生成顶点为M = M(\Theta ,\beta ) \in \mathbb{R}^{N \times 3}的网格,其中N = 6890表示SMPL模型中的顶点数。通过预先训练好的线性回归器将这些网格顶点映射到稀疏的三维节点J \in \mathbb{R}^{N_{j}\times 2},并进一步投影到图像坐标系上,作为二维关键点K = \prod (J) \in \mathbb{R}^{N_{j} \times 2},其中\prod (\cdot )表示基于摄像机参数\prod的投影函数。请注意,Θ中的位姿参数表示为沿运动链的相对旋转,微小的参数误差可能导致2D投影和图像证据之间的明显不对齐。为了惩罚回归网络训练过程中的这种错位,我们遵循常用的做法[1],[3],在估计网格投影的2D关键点上添加2D监督。同时,在有真实三维标签的情况下,增加三维节点和模型参数的附加三维监督。总的来说,参数回归函数的损失函数可以写成

 其中||·||为L2范数的平方和,K、J、Θ分别表示二维关键点、三维关节和模型参数

        与常用参数回归器相比的一个改进是,我们的回归器可以更好地利用空间信息。与常用的回归器以全局特征\phi _{g}\in \mathbb{R}^{C_{g} \times 1}作为输入不同,我们的回归器使用从空间特征\phi _{s}^{t}中获得的点信息。提取逐点特征的直接策略是使用网格模式点X_{grid}并从\phi _{s}^{t}中均匀采样特征。在本文提出的方法中,采样点X_{t} 采用t = 0级别的网格模式,并在t > 0时根据当前估计进行更新。我们将证明这种网格条件采样策略有助于回归器产生良好对齐的重建结果。

3.1.2网格对准反馈回路

正如在HMR[1]中提到的,直接回归网格参数是具有挑战性的。为了解决这个问题,HMR使用迭代错误反馈(IEF)循环,通过将全局特征\phi _{g} 和Θ的当前估计作为输入,迭代更新Θ。尽管IEF策略逐步减少了参数误差,但每次参数更新都使用相同的全局特征,缺乏细粒度信息,不能适应新的预测。相比之下,我们提出了一个网格对齐反馈(MAF)循环,以便网格对齐的证据可以在我们的回归器中用于校正当前参数,并改善估计模型的网格图像对齐。

       网格对齐特性。在提出的网格对齐反馈环中,我们基于当前估计的网格Mt在t > 0时从\phi _{s}^{t}中提取网格对齐特征,以获得更细粒度和位置敏感的证据。与全局特征或均匀采样的网格特征相比,网格对准特征能反映当前估计的网格图像对准状态,为参数校正提供了更大的信息量。具体来说,采样点X_{t}被设置为网格对齐点X_{mesh}^{t},它是通过首先对网格从M_{t}\widetilde{​{​{M_{t}}}}进行下采样,然后将其投影到2D图像平面上获得的,即X^{t}=M_{mesh}^{t}=\prod (\widetilde{M_t})。基于X_{mesh}^{t}中,通过Eq. 1从\phi _{s}^{t}中提取网格对齐特征\phi _m^t,即

        空间对齐注意力。虽然网格对齐特征\phi _{m}^{t}是位置敏感的,但这些特征仅限于当前网格结果的重投影区域。为了能够感知整个图像上下文中的相对位置,我们进一步设计了空间对齐注意,以融合来自网格和网格特征的信息。具体来说,首先将基于网格模式点X_{grid}和网格化点X_{mesh}^{t}提取的逐点特征拼接在一起,即\phi _{gm}^t:

其中N_{gm}是网格模式和网格对齐点的总数。然后,利用空间对齐注意学习\phi _{gm}^t之间的注意关系,利用网格特征中的空间信息更有效地增强网格对齐特征。在我们的解决方案中,使用自注意模块[122]来处理特征\phi _{gm}^t:

其中,W^QW^KW^V分别是用于生成查询、键和值特征Q、K、V的不同子空间表示的可学习矩阵,Att(·)表示使用softmax的缩放点积注意函数[122]。在此基础上,通过降维和拼接技术,得到了增强的网格对准特征致歉\widehat{\phi _{m}^t}。最后,将增强的网格对齐特征\widehat{\phi _{m}^t}输入回归函数{R}_{t}进行参数更新:

 

 图4所示。空间特征图的可视化和预测的密集对应。最上面:输入图像。第二/第三行:分别表示在没有/有辅助监督(AS)的情况下学习的空间特征地图。下图:辅助监督下预测的密集对应图。

 

 图5所示。用于全身网格恢复的PyMAF-X的整体管道。PyMAF-X由三个部分特定的pymaf组成,用于部分网格预测,并通过提出的自适应集成策略将它们集成在一起。

 3.1.3辅助密集监督

如图4第二行所示,空间特征往往会受到噪声输入的影响,因为原始图像可能包含大量不相关的信息,如遮挡、外观和照明变化。为了提高从空间特征中提取的网格对齐线索的可靠性,我们在最后一层对空间特征施加了辅助的像素级预测任务。具体来说,在训练过程中,\phi _s ^{T-1}空间特征图将经过卷积层,生成具有像素级监督的密集对应图。稠密对应编码二维图像平面前景像素与三维空间网格顶点之间的映射关系。通过这种方式,辅助监督为图像编码器提供网格-图像对应指导,以保留空间特征图中最相关的信息。

         在我们的实现中,我们采用DensePose[60]中定义的IUV映射作为密集对应表示,它由网格顶点的部分索引和UV值组成。请注意,我们没有在数据集中使用DensePose注释,而是基于ground-truth SMPL模型[27]渲染IUV地图。在训练过程中,分别对密集对应图的部分指数P和U V通道进行分类和回归损失处理。具体来说,对于部分索引P通道,应用交叉熵损失对属于背景或属于身体部分之间的像素进行分类。对于uv通道,应用平滑L1损失回归前景像素对应的uv值。在U V回归损失中只考虑前景区域,即在应用回归损失之前,先用ground-truth部分指标信道掩盖估计的U V信道。总的来说,辅助像素级监督的损失函数写为

 

在哪里\bigodot表示掩码操作。注意,辅助预测只在训练阶段需要。

        图4可视化了在辅助监督和不辅助监督下训练的编码器的空间特征,其中特征图只是沿着通道维度作为灰度图像添加,并使用色图进行可视化。我们可以看到,应用辅助监督后,空间特征对输入变化更加整齐和鲁棒。

 3.2用于全身网格恢复的PyMAF- x

 通过简单地将上述公式中的SMPL模型更改为MANO[29]和FLAME[30]模型,可以轻松地修改特定于身体的PyMAF以重建手和面部网格。基于PyMAF的回归能力,我们将其扩展到PyMAF- x进行全身网格恢复

        在之前的工作[12],[13],[14],[15]之后,PyMAF-X由三位特定部分组成,即三个特定部位的PyMAFs来预测身体,手和脸的参数,如图5所示。为了确保部分区域的高分辨率观测,部分网络对从原始输入中裁剪的身体、手和面部图像进行单独的预测。在网格对齐反馈回路的每次迭代中,收集和整合身体、手和面部特定的PyMAF的预测,作为全身模型SMPL-X[18]的参数Θf b = {Θf b, \beta _{fb}, ψ, π},其中Θf b,\beta _{fb}和ψ分别表示姿态、形状和面部表情参数。姿态参数θf b由55个关节的旋转姿态组成,包括身体的22个关节,手部的30个手指关节和面部的3个颚关节。相机参数π来自于身体特定的PyMAF的预测,并用于在图像平面上投影身体、手和面部顶点。此外,考虑到手和脸的位置容易受到不准确的身体姿态估计的影响,我们将其重新投影点的中心对准手和脸的图像中心,以确保它们的网格对齐特征是有意义的。

        简单的集成。在每个部分单独回归后,我们需要计算出手腕关节的旋转,以整合身体和手的网格。最直接的策略是简单的“复制-粘贴”集成。具体来说,手腕关节的姿态是根据身体部分网络预测的身体姿态和手部专家预测的手部全局方位来计算的。{\theta _{hand}}'是左手或右手的整体方向,这也是腕关节的整体旋转。全身模型的腕位可以通过先计算肘关节的整体旋转{\theta _{elbow}}',再计算腕关节的相对旋转{\theta _{wrist}}来求解,即:

其中θj表示第j个身体关节的相对旋转,A(肘关节)是肘关节及其自身在运动树中的关节祖先的有序集,{\theta _{hand}^{-1}}'是手的逆全局旋转。受益于每个部分的良好对齐结果,PyMAF-X可以使用这样一个简单的集成策略在常见场景中产生合理的结果。

        肘扭补偿的自适应集成。在之前的工作[12]中指出,由于手区域在身体图像中所占的比例很小,身体网络很难感知手的姿势。这可能会导致身体和手部网络分别预测的手臂和手部姿势的配置不一致,导致全身模型的手腕姿势不自然,如图6所示。之前的工作[12],[13],[14],[15]通过从身体和手部特征学习手腕姿势来缓解这个问题,但通常会降低手腕姿势和对齐的准确性。在我们的工作中,我们提出了一种自适应集成策略,直接根据解决的手腕姿势来修正肘部姿势,这样肘部和手腕姿势可以更加兼容。为了保持网格图像对齐,我们只纠正肘关节的扭转旋转,因为它是沿着肘关节-手腕骨的旋转,几乎不影响身体和手部关节的位置。为此,我们首先计算手腕姿势即肘关节到手腕骨的扭转角度,然后分别通过添加和减去补偿扭转旋转来更新肘关节和手腕姿势。

        步骤1:计算原始扭转角。肘部到手腕矢量周围的扭转分量可以从手腕姿势分解。在不失一般性的前提下,令Eq.(8)中求解的左手腕或右手腕姿态的四元数表示为qwrist = (w_{wrist}\overrightarrow{w_{wrist}})。利用Huyghe 's方法[123],[124],可以计算绕归一化肘部到手腕向量\overrightarrow{v_{tw}}旋转的四元数q_{tw}为:

 其中,q_{proj}中的u_{proj}\overrightarrow{v_{tw}}为归一化\overrightarrow{w_{wrist}}\overrightarrow{w_{tw}}上的投影向量。设w_{tw}为扭转四元数q_{tw}的第一个元素,则扭转旋转角度可计算为\alpha _{tw}=2cos^{-1}(w_{tw}) \in [-\pi ,\pi ]

        步骤2:调整肘部和手腕的姿势。角度\alpha _{tw}反映了手腕围绕肘部到手腕骨旋转的强度,超出范围的扭转角度通常会导致不自然的手腕姿势。为了解决这个问题,一个额外的扭转旋转被添加到肘部的姿势,作为一个补偿手腕的姿势。具体地说,肘部/手腕 姿势是通过增加/减去围绕肘部-手腕向量\widetilde{\theta}_{elbow}的扭曲旋转\theta _{cp},以\alpha _{cp}为补偿角来更新为\widetilde{\theta}_{elbow} /\widetilde{\theta}_{wrist},即\widetilde{\theta}_{elbow} ={\theta}_{elbow} {\theta}_{cp}\widetilde{\theta}_{wrist} ={\theta}_{cp}^{-1} {\theta}_{wrist}。在我们的解中,我们经验地设置了一个范围[\alpha _{tmin}\alpha _{tmax}]来约束\alpha _{tw},补偿角\alpha _{cp}为:

 

         从我们的实验中可以看出,通过肘关节的扭转补偿,在保持身体和手的网格图像对齐的同时,手腕姿势变得更加自然。在实际应用中,由于手专家预测的全局方向在手不可见时是不可靠的,因此对于那些看不见的手并不是不应用自适应积分。在我们的实现中,pymaf - x的手网络也预测了手可见状态的置信度。当手看不见时,全身模型简单采用身体专家预测的手腕姿势和手的平均姿势。

 4 实验

暂时先不翻译了

5.结论

在本文中,我们首先提出了金字塔网格对齐反馈(PyMAF)用于基于回归的人体网格恢复,并进一步将其扩展为PyMAF- x用于全身网格恢复。PyMAF的主要动机是观察参数网格结果和输入图像之间的重投影不对齐。在PyMAF的核心,参数回归器利用来自特征金字塔的空间信息,根据当前估计网格的对齐状态,在反馈循环中显式地纠正参数偏差。为了实现这一点,给定一个粗对齐网格估计,首先从空间特征图中提取网格对齐特征,然后反馈到回归器中进行参数校正。此外,使用辅助密集监督来增强网格对齐特征的学习,同时引入空间对齐注意,以使我们的深度回归函数能够意识到全局上下文。在扩展PyMAF进行全身模型恢复时,在PyMAF- x中提出了一种与肘部扭曲补偿策略的自适应集成,以生成自然的手腕位姿,同时保持部分特定的PyMAF的对准性能。PyMAF和PyMAF- x的有效性在室内和野外数据集上得到了验证,我们的方法比基线和先前基于回归的解决方案有效地提高了网格-图像对齐。

        局限性和未来工作。在我们的实验中,我们发现由于SMPL-X中FLAME[30]模型的表达能力以及缺乏相应的训练,PyMAF-X无法i)捕捉到详细的面部表情

 

猜你喜欢

转载自blog.csdn.net/weixin_50862344/article/details/128751321