论文阅读笔记(一)FCN

Fully Convolutional Networks for Semantic Segmentation

 用于语义分割的全卷积网络

摘要

  卷积网络是可以产生具有层次结构的特征的强大的视觉模型。我们展示了只通过由端到端,像素像素训练的卷积网络进行语义分割,就超过了当前最新的技术水平。我们的主要见解是构建“完全卷积”网络,该网络接受任意大小的输入并通过有效的推理和学习产生相应大小的输出。我们定义并详细说明完全卷积网络的空间,解释它们在空间密集预测任务中的应用,并阐述与先前模型的联系。我们将现代分类网络(AlexNet [19],VGG网络[31]和GoogLeNet [32])调整为完全卷积网络,并通过微调[4]将其学习的表示转移到分割任务。什么是微调?怎么微调?然后,我们定义了一种新颖的架构,它将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,以生成准确而详细的分割。我们的完全卷积网络实现了对PASCAL VOC(相对2012年62.2%的平均IU改进率为20%),NYUDv2和SIFT Flow的最先进分割,而典型图像的推断时间不到五分之一秒。

1. 绪论

  卷积网络正在推动识别的进步。Convnet不仅改善了整体图像分类[19,31,32],而且还在结构化输出的本地任务上取得了进展。这些进展包括边界框对象检测[29,12,17],部分和关键点预测[39,24]以及局部对应[24,9]。从粗略推断到精细推理,很自然下一步是对每个像素进行预测。先前的方法已经使用了用于语义分割的卷积网络[27,2,8,28,16,14,11],其中每个像素用其封闭对象或区域的类来标记,但是具有该工作所解决的缺点。我们证明了一个没有进一步的机制的由端对端,像素到像素训练的完全卷积网络(FCN)超过了现有的最先进的语义分割技术。据我们所知,这是第一个从(2)有监督的预训练,端对端地训练FCN(1)用于像素预测的工作。现有网络的完全卷积版本预测来自任意大小输入的密集输出。学习和推理都是通过密集的前馈计算和反向传播在整个图像上进行的。网内上采样层通过子采样池化来实现网络中的像素预测和学习。这种方法无论是渐近还是绝对都是有效的,并且排除了对其他工作中的复杂性的需要。Patchwise训练很常见[27,2,8,28,11],但缺乏完全卷积训练的效率。我们的方法没有利用预处理和后处理的复杂性,包括超像素[8,16],建议[16,14],或随机字段或局部分类器的事后细化[8,16]。我们的模型通过将分类网络重新解释为完全卷积并从其学习的表示中进行微调,将最近在分类任务[19,31,32]中取得的成果转移到密集预测任务。相比之下,以前的工作是在没有经过有监督的预训练的情况下应用了小型网络。语义分割面临语义和位置之间的内在张力:全局信息解决是什么的问题,而本地信息解决在何处的问题。深度特征层次结构共同编码了 局部到全局金字塔中的位置和语义信息。我们在4.2节定义了一个新颖的“skip”架构,将深的,粗略的语义信息和浅的,精细的外观信息相结合(见图3)。在下一节中,我们将回顾有关深度分类网络,FCN以及使用convnet进行语义分割的最新方法的相关工作。接下来的章节介绍了FCN设计和密集预测权衡,介绍了我们的网络上采样和多层组合的架构,并描述了我们的实验框架。最后,我们展示了在PASCAL VOC 2011-2,NYUDv2和SIFT Flow上取得的最新成果。

2. 相关工作

  我们的方法借鉴了最近成功的用于图像分类深度网络[19,31,32]和迁移学习[4,38]。迁移首先在各种视觉识别任务[4,38],然后是检测,以及混合提议分类器模型中的实例和语义分割任务[12,16,14]上进行了演示。我们现在重新构建和微调分类网络,以直接,密集地预测语义分割。我们绘制了FCN的空间,并在此框架中定位了历史和近期的先前模型。

  全卷积网络 据我们所知,Matan等人首先提出了将一个卷积网络扩展到任意大小的输入的想法。 [25],它扩展了classicLeNet [21]以识别数字串。因为他们的网络仅限于一维输入字符串,Matan等人。 使用Viterbi解码来获得它们的输出。Wolf和Platt [37]将信号输出扩展为邮政地址块四个角的二维检测分数图。这两个历史工作都通过全卷积进行了推理和学习,以便进行检测。 宁等人 [27通过]完全卷积推理,定义了一个用于秀丽隐杆线虫组织的粗多类分割的预测网。

  在当前的多层网络时代,也充分利用了卷积计算。Sermanet等人的滑动窗口检测 [29],Pinheiro和Collobert [28]的语义分割,以及Eigen等人的图像恢复 [5]都做了全卷积推理。全卷积训练很少见,但Tompson等人有效地使用了它 [35]来学习一个端到端的部分探测器和姿势估计的空间模型,但是他们没有对这个方法进行解释或分析。

  或者,He等人 [17]丢弃分类网的非卷积部分以制作特征提取器。它们结合了提议和空间金字塔池,以产生用于分类的本地化固定长度特征。虽然快速有效,但这种混合模式无法端到端地学习。

  用卷积网络进行密集预测 最近的一些研究已经将卷积网络应用于密集预测问题,包括Ning等[27],Farabet等[8],Pinheiro和Collobert [28]等人的语义分割 ;Ciresan等人的电子显微镜边界预测, [2]和Ganin和Lempitsky的混合神经网络/最近邻模型的自然图像边界预测[11];和Eigen等人的图像恢复和深度估计 [5,6]。这些方法的共同要素包括:

  • 限制容量和感受野的小模型;
  • patchwise训练[27,2,8,28,11];
  • 有超像素投影,随机场正则化,滤波或局部分类[8,2,11]的后处理过程;
  • 对于密集输出存在由过拟合 [29]引入的输入移位和输出交织问题[28,11];
  • 多尺度金字塔处理[8,28,11];
  • 饱和tanh非线性[8,5,28];
  • 集成[2,11]

  而我们的方法没有这种机制。然而,我们从FCN的角度研究了补丁训练3.4节和“移位 - 缝合”密集输出3.2节。我们还讨论了网内上采样3.3节,其中Eigen等人的全连接预测 [6]是一个特例。

  与现有方法不同,我们采用深度分类架构,使用图像分类作为有监督的预训练,并通过全卷积微调,从整个图像输入和整个图像的Ground Truths中简单有效地学习。

  Hariharan等人 [16]和Gupta等人 [14]同样使深度分类网适应语义分割,但只在混合提议 - 分类器模型中这样做。这些方法通过对边界框和/或区域提议进行采样来微调R-CNN系统[12],以进行检测,语义分割和实例分割。这两种方法都不是端到端学习的。

  他们分别在PASCAL VOC分割和NYUDv2分割方面取得了最新成果,因此我们直接在第5节中将我们的独立端到端FCN与他们的语义分割结果进行比较。

3. 全卷积网络

  卷积网络中的每个数据层是大小为h×w×d的三维阵列,其中h和w是空间维度,d是特征或信道维度。第一层是有着像素大小为h×w,以及d个颜色通道的图像,较高层中的位置对应于它们路径连接的图像中的位置,这些位置称为其感知域。

  Convnet建立在平移不变性的基础之上。它们的基本组件(卷积,池化和激活函数)在局部输入区域上运行,并且仅依赖于相对空间坐标。用xij表示某一层位置(x,j)处的数据向量,yij是下一层的数据向量,则通过下式计算yij:

  其中k称为内核大小,s是步幅或子采样因子,fks决定层的类型:用于卷积或平均池化的矩阵乘法,用于最大池化的空间最大值,或用于激活函数的元素非线性,等等用于其他类型的层。

  这种函数形式在组合下维护,内核大小和步幅遵守转换规则:

  虽然一般的深度网络计算一般的非线性函数,但只有这种形式的层的网络计算非线性滤波器,我们称之为深度滤波器或完全卷积网络。FCN自然地对任何大小的输入进行操作,并产生相应(可能重新采样的)空间维度的输出。

  由FCN组成的实值损失函数定义了任务。如果损失函数是最终图层的空间维度的总和如果损失函数是最终图层的空间维度的总和如果损失函数是最终图层的空间维度的总和

---恢复内容结束---

---恢复内容开始---

Fully Convolutional Networks for Semantic Segmentation

 用于语义分割的全卷积网络

摘要

  卷积网络是可以产生具有层次结构的特征的强大的视觉模型。我们展示了只通过由端到端,像素像素训练的卷积网络进行语义分割,就超过了当前最新的技术水平。我们的主要见解是构建“完全卷积”网络,该网络接受任意大小的输入并通过有效的推理和学习产生相应大小的输出。我们定义并详细说明完全卷积网络的空间,解释它们在空间密集预测任务中的应用,并阐述与先前模型的联系。我们将现代分类网络(AlexNet [19],VGG网络[31]和GoogLeNet [32])调整为完全卷积网络,并通过微调[4]将其学习的表示转移到分割任务。什么是微调?怎么微调?然后,我们定义了一种新颖的架构,它将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,以生成准确而详细的分割。我们的完全卷积网络实现了对PASCAL VOC(相对2012年62.2%的平均IU改进率为20%),NYUDv2和SIFT Flow的最先进分割,而典型图像的推断时间不到五分之一秒。

1. 绪论

  卷积网络正在推动识别的进步。Convnet不仅改善了整体图像分类[19,31,32],而且还在结构化输出的本地任务上取得了进展。这些进展包括边界框对象检测[29,12,17],部分和关键点预测[39,24]以及局部对应[24,9]。从粗略推断到精细推理,很自然下一步是对每个像素进行预测。先前的方法已经使用了用于语义分割的卷积网络[27,2,8,28,16,14,11],其中每个像素用其封闭对象或区域的类来标记,但是具有该工作所解决的缺点。我们证明了一个没有进一步的机制的由端对端,像素到像素训练的完全卷积网络(FCN)超过了现有的最先进的语义分割技术。据我们所知,这是第一个从(2)有监督的预训练,端对端地训练FCN(1)用于像素预测的工作。现有网络的完全卷积版本预测来自任意大小输入的密集输出。学习和推理都是通过密集的前馈计算和反向传播在整个图像上进行的。网内上采样层通过子采样池化来实现网络中的像素预测和学习。这种方法无论是渐近还是绝对都是有效的,并且排除了对其他工作中的复杂性的需要。Patchwise训练很常见[27,2,8,28,11],但缺乏完全卷积训练的效率。我们的方法没有利用预处理和后处理的复杂性,包括超像素[8,16],建议[16,14],或随机字段或局部分类器的事后细化[8,16]。我们的模型通过将分类网络重新解释为完全卷积并从其学习的表示中进行微调,将最近在分类任务[19,31,32]中取得的成果转移到密集预测任务。相比之下,以前的工作是在没有经过有监督的预训练的情况下应用了小型网络。语义分割面临语义和位置之间的内在张力:全局信息解决是什么的问题,而本地信息解决在何处的问题。深度特征层次结构共同编码了 局部到全局金字塔中的位置和语义信息。我们在4.2节定义了一个新颖的“skip”架构,将深的,粗略的语义信息和浅的,精细的外观信息相结合(见图3)。在下一节中,我们将回顾有关深度分类网络,FCN以及使用convnet进行语义分割的最新方法的相关工作。接下来的章节介绍了FCN设计和密集预测权衡,介绍了我们的网络上采样和多层组合的架构,并描述了我们的实验框架。最后,我们展示了在PASCAL VOC 2011-2,NYUDv2和SIFT Flow上取得的最新成果。

2. 相关工作

  我们的方法借鉴了最近成功的用于图像分类深度网络[19,31,32]和迁移学习[4,38]。迁移首先在各种视觉识别任务[4,38],然后是检测,以及混合提议分类器模型中的实例和语义分割任务[12,16,14]上进行了演示。我们现在重新构建和微调分类网络,以直接,密集地预测语义分割。我们绘制了FCN的空间,并在此框架中定位了历史和近期的先前模型。

  全卷积网络 据我们所知,Matan等人首先提出了将一个卷积网络扩展到任意大小的输入的想法。 [25],它扩展了classicLeNet [21]以识别数字串。因为他们的网络仅限于一维输入字符串,Matan等人。 使用Viterbi解码来获得它们的输出。Wolf和Platt [37]将信号输出扩展为邮政地址块四个角的二维检测分数图。这两个历史工作都通过全卷积进行了推理和学习,以便进行检测。 宁等人 [27通过]完全卷积推理,定义了一个用于秀丽隐杆线虫组织的粗多类分割的预测网。

  在当前的多层网络时代,也充分利用了卷积计算。Sermanet等人的滑动窗口检测 [29],Pinheiro和Collobert [28]的语义分割,以及Eigen等人的图像恢复 [5]都做了全卷积推理。全卷积训练很少见,但Tompson等人有效地使用了它 [35]来学习一个端到端的部分探测器和姿势估计的空间模型,但是他们没有对这个方法进行解释或分析。

  或者,He等人 [17]丢弃分类网的非卷积部分以制作特征提取器。它们结合了提议和空间金字塔池,以产生用于分类的本地化固定长度特征。虽然快速有效,但这种混合模式无法端到端地学习。

  用卷积网络进行密集预测 最近的一些研究已经将卷积网络应用于密集预测问题,包括Ning等[27],Farabet等[8],Pinheiro和Collobert [28]等人的语义分割 ;Ciresan等人的电子显微镜边界预测, [2]和Ganin和Lempitsky的混合神经网络/最近邻模型的自然图像边界预测[11];和Eigen等人的图像恢复和深度估计 [5,6]。这些方法的共同要素包括:

  • 限制容量和感受野的小模型;
  • patchwise训练[27,2,8,28,11];
  • 有超像素投影,随机场正则化,滤波或局部分类[8,2,11]的后处理过程;
  • 对于密集输出存在由过拟合 [29]引入的输入移位和输出交织问题[28,11];
  • 多尺度金字塔处理[8,28,11];
  • 饱和tanh非线性[8,5,28];
  • 集成[2,11]

  而我们的方法没有这种机制。然而,我们从FCN的角度研究了补丁训练3.4节和“移位 - 缝合”密集输出3.2节。我们还讨论了网内上采样3.3节,其中Eigen等人的全连接预测 [6]是一个特例。

  与现有方法不同,我们采用深度分类架构,使用图像分类作为有监督的预训练,并通过全卷积微调,从整个图像输入和整个图像的Ground Truths中简单有效地学习。

  Hariharan等人 [16]和Gupta等人 [14]同样使深度分类网适应语义分割,但只在混合提议 - 分类器模型中这样做。这些方法通过对边界框和/或区域提议进行采样来微调R-CNN系统[12],以进行检测,语义分割和实例分割。这两种方法都不是端到端学习的。

  他们分别在PASCAL VOC分割和NYUDv2分割方面取得了最新成果,因此我们直接在第5节中将我们的独立端到端FCN与他们的语义分割结果进行比较。

3. 全卷积网络

  卷积网络中的每个数据层是大小为h×w×d的三维阵列,其中h和w是空间维度,d是特征或信道维度。第一层是有着像素大小为h×w,以及d个颜色通道的图像,较高层中的位置对应于它们路径连接的图像中的位置,这些位置称为其感知域。

  Convnet建立在平移不变性的基础之上。它们的基本组件(卷积,池化和激活函数)在局部输入区域上运行,并且仅依赖于相对空间坐标。用xij表示某一层位置(x,j)处的数据向量,yij是下一层的数据向量,则通过下式计算yij:

  其中k称为内核大小,s是步幅或子采样因子,fks决定层的类型:用于卷积或平均池化的矩阵乘法,用于最大池化的空间最大值,或用于激活函数的元素非线性,等等用于其他类型的层。

  这种函数形式在组合下维护,内核大小和步幅遵守转换规则:

  虽然一般的深度网络计算一般的非线性函数,但只有这种形式的层的网络计算非线性滤波器,我们称之为深度滤波器或完全卷积网络。FCN自然地对任何大小的输入进行操作,并产生相应(可能重新采样的)空间维度的输出。

  由FCN组成的实值损失函数定义了任务。如果损失函数是最终图层的空间维度的总和如果损失函数是最终图层的空间维度的总和如果损失函数是最终图层的空间维度的总和

\(l(x;\theta ) = \sum\nolimits_{ij} {{l^'}({x_{ij}};\theta )} \)

---恢复内容结束---


猜你喜欢

转载自www.cnblogs.com/ChinaField-blog/p/10665356.html