手势姿态估计:Mask-pose Cascaded CNN for 2D Hand Pose Estimation from Single Color Image解读
论文网址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8529221
项目网站:https://www.yangangwang.com/papers/WANG-MCC-2018-10.html
论文出处:2019年IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)
0. 摘要
- 设计了一种串联的网络用于从单一室外RGB的手势图上进行2D人手姿态估计。
- 采用了轮廓信息(silhouette information),该信息对姿态估计非常重要。
- 方法包括两个阶段:mask分割阶段和姿态估计阶段。
- end-to-end的训练方式使mask和pose的检测互相提高。
- 制作了一个新的RGB hand dataset :OneHand10K,包含mask和keypoint。
1. 引言
- 目前,RGB的手势姿态估计仍然suffer from unconventional lighting, pose ambiguities, similar hand and background colors。
- mask分割和姿态估计是一个chicken-and-egg的问题。
- 两个部分:mask和pose,其中手的姿态估计能给分割提供软约束,提高分割准确率;同时分割也能提高姿态估计的准确率。
- OneHand10K:包含超过10k的RGB single手图像,每个手包含21个joints,同时包含手的mask标签。
- 本文的2D姿态估计可以通过2D-to-3D regression algorithms扩展到3D.
- 本文的贡献点:
(1)OneHand10K数据集:包含11703个rgb单手图像数据,标签为手关节和mask,occlusion, light, shadow and background are all considered in the dataset.
(2)mask-pose cascaded convolutional neural network
(3)验证了end-to-end结构能够使mask和pose互相提高。
相关工作
- 手姿态估计大体分为3种方法:
(1)生成法(generative approaches):用3D手模型来估计手姿态。通过最大化手模型和视觉提取的特征一致性来估计。轮廓、底纹、肤色、光流都是提取的特征,易受环境限制。
(2)区分法(discriminative approaches):通过训练集学习图像特征和手姿态的映射关系。受益于深度学习方法。准确率受限于数据集,目前基于深度图像的手姿态估计研究较多。
(3)混合法(hybrid approaches):上述两种方法的结合。 - 本文方法面向in-the-wild 手姿态估计的难题,能在一个结构种同时输出手的mask和2D pose。
- 两种与本文类似的方法:
(1)文献[10]将3D手势姿态估计分成3个独立的网络:包括手分割网络、2D姿态估计网络、3D姿态优先网络。
(2)Mask R-CNN能够同时估计手的分割和姿态,在结构中,姿态可以被视为soft segmentation masks。这样,网络就能够同时并行输出 joint soft segmentation masks和 joint soft segmentation masks。
(3)本文方法不仅能同时输出手的mask和pose,而且两者还能互相提高准确率。