Deep Learning Based Registration文章阅读(一)《Content-Aware Unsupervised Deep Homography Estimation》

笔者每周计划详细看2-3篇比较新的深度学习做配准的文章,主要来源是CV比较好的期刊及顶会CV常用期刊及网址,看完后记录一下印象及理解会更加深刻,更欢迎交流~

Deep Learning Based Registration文章阅读(一)

本次阅读的文章题为《Content-Aware Unsupervised Deep
Homography Estimation》,来源ECCV2020。

Prepare Knowledge

读者对单应性估计以及文中提到的传统方法中用到的RANSAC都不熟悉,故根据文中参考文献等资料,这里做一个了解并记录。
参考资料:
1、《Multiple View Geometry in Computer Vision (Second Edition)》
2、Multiple View Geometry in computer vision 学习记录
3、《Random Sample Consensus: A Paradigm for Model Fitting with Apphcatlons to Image Analysis and Automated Cartography》
:关于投影变换以及投影变换矩阵的相关内容参考1和2,2基本是1的中文翻译版;关于Direct Linear Transformation (DLT) 算法以及RANSAC的相关内容参考1和3。

Homography Estimation

单应性估计即求单应性矩阵或者叫投影变换矩阵。以2D情况为例,单应性矩阵为8个自由度,且为非奇异矩阵,需要4个对应点求出3阶单应性矩阵的8个待定系数,且这四个对应点应满足任取三个不能共线。
文中提到的估计方法,应该也是比较常用的传统方法为:DLT with RANSAC outlier rejection。

DLT算法在这里插入图片描述

理想情况下,即无噪声情况下,我们可以用四个点或者多于四个点唯一的确定单应性矩阵H。但是当图像存在噪声的时候,我们提取匹配的特征点坐标也会存在噪声,所以这种情况下,多于4个点的时候可能无法得到非0解,这个时候就要通过优化一些指定的cost function来得到近似解。上图是DLT算法的流程图,其中 X ′ 和 X X'和X XX为two views的对应的特征点的坐标的齐次坐标。不失一般性, w ′ 和 w w'和w ww就取为1。
在这里插入图片描述
上式中 ( x i ′ , y i ′ , w i ′ ) = X i ′ T (x'_{i}, y'_{i}, w'_{i})=X'^{T}_{i} (xi,yi,wi)=XiT h 1 , 2 , 3 h_{1,2,3} h1,2,3分别为H第1,2,3行的转置列向量,即知道了h也就知道了H。
算法流程图中没有显式的要优化的代价函数,其实要优化的代价函数为:
min ∣ ∣ A h ∣ ∣ ||Ah|| Ah, s.t ∣ ∣ h ∣ ∣ = 1 ||h||=1 h=1
∣ ∣ h ∣ ∣ = 1 ||h||=1 h=1是为了避免0解,1的取值可以改变,因为h可以用非0factor任意缩放。
上式就等价于:
min ∣ ∣ A h ∣ ∣ / ∣ ∣ h ∣ ∣ ||Ah||/||h|| Ah/h,这个式子的解如算法流程图中所述,是 A A A矩阵的最小的特征值对应的单位特征向量。

RANSAC

RANSAC是一种鲁棒估计单应性矩阵H的方法。它通过识别出测量好的对应特征点的outliers,也就是mismatching points并剔除,只保留inliers,从而得到良好的H估计结果。算法流程图如下:
在这里插入图片描述
笔者关注前三个步骤,后两个步骤未了解。其中提取特征点可以通过SIFT实现,RANSAC用来判断outlier和inlier。 d ⊥ d_{\perp} d是重投影误差,重投影误差中用到了特征点的估计值,目前笔者还未理解。 σ \sigma σ是测量误差所满足的高斯分布的标准差,如果要重复这个算法,目前笔者还不清楚这个 σ \sigma σ应该怎么得到。

Motivation

1、单应性估计通常通过提取和匹配两幅图像的特征点来辅助实现,特征点的提取和匹配在图像低亮度和纹理信息较少的情况下,效果通常不好。一般传统的方法就是使用SIFT来寻找匹配点。
2、之前的单应性估计要么是合成数据的有监督学习,要么是基于航拍图像的无监督学习,没有考虑更常见真实世界中的深度不一致 (deep disparities) 或者是移动物体的情况。
3、单应性矩阵估计用来实现投影变换,在复杂场景下(例如图像对拍摄场景包含多个平面或者有移动的物体),投影变换通常作为预对齐的方式,预对齐会很大程度影响后续更复杂算法 (例如光流法) 的最终效果。

Objective

基于一个新的包含很多真实情况的数据集,提出了一个新的无监督学习框架估计单应性矩阵,并取得了state-of-art performance。思想是借鉴传统方法中的RANSAC,在框架中学习一个outlier mask,从而可以只选择可靠的区域做单应性矩阵估计。

Framework

在这里插入图片描述
网络结构主要包括三部分:特征提取,mask预测,单应性估计
特征提取是全卷积网络,输出和图像尺寸一样大小的feature maps,使用feature maps进行loss计算也比用intensity更为稳定,在光照变化等情况下。
mask预测输出一个类似于RANSAC功能的一个概率图,概率大小代表这个pixel位置是inlier的概率,学习到的这个mask有两个功能,一个是类似于attention map,一个是类似于outlier rejection。
单应性估计是ResNet-34作为backbone,最后输出8个单应性矩阵的参数。因为卷积层的最后使用的是global average pooling,所以对输入的图像尺寸是可变的。
Loss function
![在这里插入图片描述](https://img-blog.csdnimg.cn/20210223164003183.png

前两项为两幅图经过单应性矩阵warp后的feature map的L1 loss,顺序不同代表fixed和moving image顺序不同。第三项为要使得没有warp的两幅图的feature map的L1 loss尽可能大,避免特征提取的时候全输出0从而“走捷径”的情况。最后一项为要求单应性矩阵要可逆,也是单应性矩阵的基本要求。

Results

在合成数据以及这个研究所用的真实世界数据上,这个方法都达到了最好的效果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这个研究针对的是 small baseline的数据,当large baseline的时候,failed。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_35898332/article/details/113936230