Abstract

本文实现从单张深度图里来进行3D手部姿态估计，当前好多方法则是从2D深度图直接回归3D hand meshes，这样不好之处在：因为透视失真使得复原后的图形存在人工痕迹，即便往网络中嵌入一个真实统计手模型（例如 MANO），也会出现同样的问题。

在弱监督学习下，HandVoxNet 输入一个3D体素化深度图，并依赖于两个手形表示（ hand shape representations），第一个是3D体素化手形（3D voxelized grid of the shape） ，它是准确的，但不保持mesh的拓扑结构和mesh的顶点数量；第二种则是3D手部表面（3D hand surface ），其精度较低，但不受第一种表示的限制。结合这两种表示的优点，将 手的表面 与 体素化的手形 结合起来。

1. Introduction

在这里插入图片描述

从单张深度图同时估计3D手部姿态和形状是一个新兴的计算机视觉问题，它比姿态估计更具挑战性，由于手形状多样、遮挡、高自由度(DOF)和自相似性，对真实图像进行形状标注非常困难。密集的3D手网格比稀疏的3D节点表示效果更丰富。

V2V-PoseNet 是第一个通过使用深度图的3D体素化网格来估计3D关节点热图，且避免透视失真，然而通过直接回归网格顶点的3D热图来做到形状估计，发现在实践中是不可行的。

之前也说到，本文使用两种表示，第一个表示是 体素化网格的手形表示。通过一个体素到体素（voxel-to-voxel）网络，实现将体素化深度图和体素化形状之间建立一对一的映射。第二种表示则是体素到面（ voxel-to-surface ）网络来估计手表面。

主要贡献：

基于体素的手的形状和姿态估计方法有以下组成部分：
（i）Voxel-to-voxel 3D CNN-based network;
（ii）Voxel-to-surface 3D CNN-based network;
（iii）3D CNN-based voxelized depth map synthesizers;
（iv）Hand shape registration components.
提出一种新的深度图体素化网格3D数据增强策略。

2. Method Overview

在这里插入图片描述
如上图所示，输入单张深度图，目标就是估计出 $N$ 维3D手部关节点坐标 $\mathcal{J\in R}^{3\times N}\ (i.e., 3D \ pose)$ 以及 K=1193维3D顶点坐标 $\mathcal{V\in R}^{3\times K}\ (i.e., 3D \ shape)$ ，首先将输入的深度图转化为体素化网格，即： $V_{D}\ (size=88\times 88\times 88)$ ，通过 V2V-PoseNet 直接估计3D关节点热图 $\mathcal{\{H_{j}\}}_{j=1}^{N}\ (size=44\times 44\times 44)$ ，这个关节点热图也是体素化网格，然后将 $V_{D}$ resize to $V_{D}'$ ，其中 $V_{D}'$ 大小为 $44\times 44\times 44$ ，最后将两者结合在一起，用 $\mathcal{I}_{S}$ 来表示。

通过 V2V-ShapeNet 之后得到的 Voxelized Shape $\mathcal{\hat{V}_{S}}\ (size=64\times 64\times 64)$ ，V2V-SynNet 和 S2V-SynNet 重建 $V_{D}'$ ，并在训练中作为监督，测试时就去除掉。

3. The Proposed HandVoxNet Approach

Voxelized Shape Estimation
       它允许网络以最小化透视失真机会的方式来估计形状，V2V-ShapeNet 可以看作是3D形状解码器：

       上式中，p(·)是解码分布，解码器不断学习，使得重构的体素化手形 $\mathcal{\hat{V}_{S}}$ 尽可能接近体素化手形GT值 $\mathcal{V_{S}}$ ，V2V-ShapeNet 直接估计体素化形状中每个体素的概率，表明它是否是背景(i.e.,0）或是形状体素(i.e.,1)，体素化形状重建的每体素的 二元交叉熵损失 表示如下：

       由于没有对真实手形的注释，因此要有效地学习真正的手形，弱监督是必不可少的，V2V-SynNet 从估计的体素化形状中合成体素化深度图。给出了用于体素化深度图重建的单体素二元交叉熵损失Lv VD：

Shape Surface Estimation
为了便于 Shape Registration ，手部姿态的表面形状应该要和体素化形状相似，这样才能匹配合成。和之前一样，V2S-Net 的输入也是 $\mathcal{I}_{S}$ ，损失函数则是 standard Euclidean loss：
S2V-Net的损失函数 $\mathcal{L}_{V_{D}}^{s}$ 类似等式（3）。
Shape Registration
在测试时，对于real dataset使用 NRGA，对于合成数据则使用 DispVoxNets
Total Loss

4. Result

在这里插入图片描述

手势识别2020（二）HandVoxNet

《HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose Estimation from a Single Depth Map》论文解读

Abstract

1. Introduction

2. Method Overview

3. The Proposed HandVoxNet Approach

4. Result

猜你喜欢