【论文简述】Uncertainty awareness with adaptive propagation for mvs(Applied Intelligence 2023)

一、论文简述

1. 第一作者:Jinguang Chen

2. 发表年份:2023

3. 发表期刊:Applied Intelligence

4. 关键词:多视角立体、深度学习、不确定性感知、自适应传播、代价体正则化

5. 探索动机:尽管基于不确定性感知的自适应薄体(ATV)的创建具有相当好的重建性能,但其潜力尚未得到充分实现。一方面,不确定性感知只考虑单个像素位置不同深度值的概率,在一些弱纹理区域效果有限。另一方面,在高分辨率尺度上使用3D卷积来正则化代价体仍然是时间和内存资源的重要消耗。

Although the creation of adaptive thin volumes(ATV) based on uncertainty awareness exhibits considerable reconstruction performance, its potential is yet to be fully realized. On the one hand, uncertainty awareness only considers the probability of different depth values at a single pixel position, which has a limited effect in some weak texture areas. On the other hand, employing 3D convolution to regularize the cost volume at the high-resolution scale continues to be a significant consumer of both time and memory resources.

6. 工作目标:依据UCSNet,解决上述问题。

7. 核心思想:this work proposes uncertain awareness with adaptive propagation for multi-view stereo (AP-UCSNet).

  1. Uncertainty awareness with adaptive propagation is proposed. The impact is enhanced in weakly textured regions by locating nearby points on the same physical surface to provide region-weighted uncertainty awareness.
  2. To bolster performance, we propose a simplified regularization technique as a substitute for the frequently employed 3D UNet regularization. This modification contributes to making the model more lightweight and efficient.

8. 实验结果:

Our experimental results demonstrate that the proposed method delivers superior results and performance. In comparison to UCSNet, the completeness error and overall error are reduced by 0.051 mm and 0.021 mm, respectively. On the Quadro RTX 5000 GPU, predicting a depth map with a resolution of 1600×1184 only requires 0.57s and 4398M, reflecting a decrease of approximately 19.7% and 34.2% respectively.

9.论文及代码下载:

https://link.springer.com/article/10.1007/s10489-023-04910-z

https://github. com/zongh5a/AP-UCSNet

二、实现过程

1. 网络结构

下图描述了网络的结构。特征金字塔网络首先对输入图像进行处理,生成四尺度特征图。然后,采用标准的基于学习的MVS方法在第一尺度上构建初始深度图。一般情况下,由于采样间隔较大,深度精度较差。在接下来的两个尺度中,利用前一个尺度的概率体进行自适应传播的不确定性感知,在增强深度图分辨率的同时缩小深度搜索窗口,逐步优化深度值。为了提高效率,采用简化正则化方法直接得到最终尺度下的概率体,然后对最终深度图进行回归。在训练过程中,计算所有尺度的L1损失,并将其相加,形成模型的损失函数。

2. 具有自适应传播的不确定感知

不确定性感知是一种缩小深度细化范围的方法。根据概率体P∈D×H×W,可自适应获得当前尺度下的深度范围。D、H、W分别表示深度假设样本数和特征图的高度、宽度。首先,沿着第一个维度,确定像素x处的标准差

式中,Pj(x)和Lj(x)分别为第j个深度假设平面的像素x处的P和L的值,L~(x)为前一个尺度深度图在像素x处的值。目前,当前尺度深度假设区间为[L~(x)−λσ (x), L~(x) + λσ (x)],其中λ是控制区间宽度的标量参数。

该方法能够准确感知具有可靠概率值的像素点,并获得较好的深度细化范围。但是,对于遮挡点和弱纹理区域的概率体存在一定的误差。当在这些区域应用该方法时,将生成不可用的细化间隔。

我们的做法用具有自适应传播的不确定性感知来计算同一物理表面上的加权值来解决这个问题。能够准确预测遮挡点和弱纹理点,增强平滑度。首先,对参考特征图进行空洞卷积得到邻域点偏移量,并将其加入预定邻域坐标来产生自适应邻域坐标。下表列出了扩展卷积参数。

将第一个尺度的参考特征图输入到第二个尺度中,膨胀次数设置为2。第二个尺度的参考特征图输入到第三个尺度,其中膨胀次数设置为4。输出是预设邻域点的偏移量。该方法的有效性在PatchMatchNet中得到了验证,可以获得同一物理表面上的一组邻域点。最后,采用加权法求出修正标准差。

其中σ0(x)和σi(x)分别为中心点和第i个相邻点的标准差。在这种情况下,深度假设区间为
C(x) = [L~(x)−λσ (x), L~(x) + λσ (x)]。

3. 简化的正则化

随着特征图分辨率的提高,3D UNet结构将消耗更多的内存和时间。因此,采用一种简化的方法来获得最终尺度下的概率体。首先,计算每个视图的特征体。设C为特征图的通道数,则特征体可表示为F∈C×D×H×W。

为了产生视图权重体,将特征分组计算内积并输入到CNN网络。首先将特征通道分成G组,然后对每个特征组进行Softmax统一。此时,分组后的特征体为F∈G×C/G×D×H×W。让F '0和F 'i表示参考视图和第i个源视图的特征体。第g组第i个源视图与参考视图的内积计算如下:

其中<·,·>表示内积运算。为了获得视图权重矩阵Wi∈D×H×W,将S'ig输入到具有共享权重的两层CNN网络中。值得注意的是,当S'ig输入到网络中时,梯度被截断。 

接下来,将特征体F在通道维度上用Softmax,并进行内积运算。此时,第i视图的内积矩阵表示为Si∈D×H×W。为了得到概率体P,计算每个视图的加权平均值,

4. 实验

4.1. 与先进技术的比较

猜你喜欢

转载自blog.csdn.net/qq_43307074/article/details/132101399
今日推荐