【3D计算机视觉】LSTM-CF——基于RGB-D的场景标记

《LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling》论文笔记

一、文章摘要

RGB-D场景的语义标记对于许多人工智能应用至关重要(例如感知机器人)。其需要同时从感测的颜色通道(RGB)和深度通道(D)生成像素级别的标签图。(效果类似如下)
在这里插入图片描述

作者通过以下方式解决了这个RGB-D的场景标记问题:

1、开发了一种新的长期短期记忆网络( Long Short-Term Memorized Context Fusion,LSTM-CF)模型,该模型从多个颜色通道和深度数据通道中捕获和融合内容信息

2、将该模型结合到深度卷积神经网络(CNNs)中进行端到端训练。

在这里插入图片描述
具体来说,颜色通道深度通道中的内容分别通过堆叠若干CNN层记忆网络来捕获。其中记忆网络( memory network)沿垂直方向(不同的channel)对图像进行短距离和长距离的编码。并通过channel方向拼接上述两个网络做出来的特征图(图上的C操作),并通过整合颜色通道和深度通道两个通道的垂直信息构建水平方向的记忆网络整合全局信息(其垂直和水平方向的记忆网络思想来自于Renet)。其主要思想是将图像先分成很多的小块,然后用两个 RNNs 水平的扫描图像,一个从上倒下,一个从下往上。每一个 RNN 将一个小块拉直以后的向量作为输入,然后更新其隐藏层的状态。在水平、竖直的扫描完成后,我们将这个隐藏层在每一个位置组合起来,得到一个混合的特征图 V。每一个 v i j v_{ij} 是在位置 i,j 处的特征检测算法的激活。
在这里插入图片描述

最后,通过卷积操作提取融合后的特征,以提高语义标记的准确性。其模型已经在大型SUNRGBD数据集和NYUDv2数据集上37个类别达到了新的技术水平(2.2%和5.4%的改进),平均类别准确度分别为48.1%和49.4%。

作者提出,以往的RGB-D的场景标记问题往往通过对颜色通道和深度通道建立两个CNN并将其简单的拼接再由全卷积神经网络(FCN)输出结果,这样的构造使得图像的语义信息严重损失(因为其忽略的颜色通道和深度通道的强相关性)。同时CNN更加着重于捕捉局部特征而往往忽略了全局特征,而RNN就可以很好地捕捉这些(如天花板和地板这些相近的元素,可以被RNN全局特征所捕获)。

二、LSTM-CF模型

在这里插入图片描述
上图就是LSTM-CF网络的最终形态,可以看出该网络主要由四部分组成:垂直方向的深度通道特征提取网络A、垂直方向的颜色通道特征提取网络B、将前两个网络特征通过水平方向提取整合成全局特征的记忆网络C和最后将结果输出的全卷积神经网络D。

具体地说,RGB通道的图片先通过了若干个卷积层最后通过一个纵向的记忆网络输出特征;而深度通道的图片要先经过一个HHA编码(即将深度图像转换为三种不同的通道——水平差异,对地高度以及表面法向量的角度),再通过类似的操作得到输出特征。最后上图的C操作将前两个网络的特征进行整合(及feature map在channel方向上的拼接),然后输入一个全局特征提取的网络,该网络通过水平方向的ReNet提取特征,最终这些特征被用于输出等尺寸的场景标记图。

顺便一提,通过了HHA编码的深度图通过了几个卷积操作后需要得到与RGB图片一样尺寸的feature map。

在RGB的特征提取部分,作者直接运用了DeepLab网路模型,与DeepLab不同的是其没有采用输入尺寸可变的形式,其只用三种尺寸的输入,为了得到更好的输出表达。另外其还通过将Conv2,Conv3的一些层与后面的层进行拼接,进一步提升全局的特征提取。

将RGB和深度的垂直提取特征图融合后,进行横向的特征提取,就得到了最终的全局特征。这个全局图像又与RGB通道的Con7特征图进行一次拼接,进一步加强特征的提取。

三、实验结果

最终作者将该模型与许多当前的场景标记模型进行了比较,SUNRGBD和NYUDv2数据集上的实验结果如下:
在这里插入图片描述
在这里插入图片描述
最后,作者列出了一些去掉某些部分的网络的实验结果,说明了每个部分的重要程度。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_39373480/article/details/82881842