图像基本知识及常用网络

以下是我自己总结的,还有不足的地方。正在不断修改和完善。
推荐一个总结得更好的链接:
概览主要语义分割网络,FCN、UNet、SegNet、DeepLab 等
概览主要语义分割网络

图像基本组成

  1. 像素 pixel
  2. 灰度值 intensity (一个pixel的最基本特征)
  3. 一张image可以看做一个矩阵,矩阵的每一个元素就是一个像素,每个元素上的值就是灰度值

图像处理中常见的任务

1. 图像分类
给定一张输入图像,图像分类的任务是判断该图像属于哪类,如果是多任务分类,可以用于分类该图像包含哪个类别。所以该类任务的标注非常简单,只需要标注图片的种类即可。如果是多任务的,只需要多标注几种图片是否包含某类物品即可。
2. 目标检测
目标检测是在图像分类的基础上,进一步判断图像中的目标具体在图像的什么位置。通常是以包围目标的矩形框(bounding box)形式展示。在目标检测中,通常只有一个或固定数目的目标,且图像中出现的目标种类和数目都不定。目标检测首先需要标注图片中包含目标的bbox,然后标注目标种类;一张图片可能会有多个bbox。
分类和检测的区别:
分类:是什么?
检测:目标在哪里?分别是什么种类?(多个目标)
3. 语义分割
语义分割是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,语义分割需要进一步判断图像中哪些像素属于哪个目标。但是,语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。
4. 实例分割
对图像中的每一个像素点进行分类,同种物体的不同实例也用不同的类进行标注。实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫。

计算机视觉会议
CVPR,英文全称Conference on Computer Vision and Pattern Recognition,中文全称是国际计算机视觉与模式识别会议
ICCV,英文全称International Conference on Computer Vision,中文全称国际计算机视觉大会
ECCV,英文全称European Conference on Computer Vision,中文全称欧洲计算机视觉国际会议
IPMI ,英文全称Information Processing in Medical Imaging,医学图像处理最顶级的会议
MICCAI, 英文全称Medical Image Computing and Computer-Assisted Intervention 生物医学图像处理顶级会议之一

常用数据集的来源
Kaggle和阿里云天池

主流的图像分割网络

1. FCN(全卷积网络)
论文Fully Convolutional Networks for Semantic Segmentation
关键特点:
(1)特征是由编码器中的不同阶段合并而成的,它们在语义信息的粗糙程度上有所不同。
(2)低分辨率语义特征图的上采样使用经双线性插值滤波器初始化的反卷积操作完成。
(3)从 VGG16、Alexnet 等分类器网络进行知识迁移来实现语义细分。
在这里插入图片描述
2. SegNet
论文SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
解码器使用了在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这种方法消除了学习上采样的需要。
关键特点:
(1)SegNet 在解码器中使用反池化对特征图进行上采样,并在分割中保持高频细节的完整性。
(2)编码器不使用全连接层(和 FCN 一样进行卷积),因此是拥有较少参数的轻量级网络。
SegNet框架
3. U-Net
论文U-Net: Convolutional Networks for Biomedical Image Segmentation
关键特点:
(1)U-Net 简单地将编码器的特征图拼接至每个阶段解码器的上采样特征图,从而形成一个梯形结构。该网络非常类似于 Ladder Network 类型的架构。
(2)通过跳跃 拼接 连接的架构,在每个阶段都允许解码器学习在编码器池化中丢失的相关特征。
(3)上采样采用转置卷积。
在这里插入图片描述
4. DeepLab v1
推荐链接DeepLab v1
论文Semantic Image Segmentation with deep convolutional nets and fully connected CRFs
关键特点:
(1)提出空洞卷积(atrous convolution)(又称带孔卷积,扩张卷积(dilated convolution))。
(2)在最后两个最大池化操作中不降低特征图的分辨率,并在倒数第二个最大池化之后的卷积中使用空洞卷积。
(3)使用 CRF(条件随机场) 作为后处理,恢复边界细节,达到准确定位效果。
(4)附加输入图像和前四个最大池化层的每个输出到一个两层卷积,然后拼接到主网络的最后一层,达到 多尺度预测 效果。
空洞卷积
5. DeepLab v2
论文DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
关键特点:
(1)提出了空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,简称ASPP),在不同的分支采用不同的空洞率以获得多尺度图像表征。
下图为:DeepLab v1与DeepLab v2的对比
在这里插入图片描述
6. DeepLab v3
论文Rethinking Atrous Convolution for Semantic Image Segmentation
关键特点:
(1)在残差块中使用多网格方法(MultiGrid),从而引入不同的空洞率。
(2)在空洞空间金字塔池化模块中加入图像层面(Image-level)特征,并且使用 BatchNormalization 技巧。

7. Fully Convolutional DenseNet
论文The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
全卷积 DenseNet 使用 DenseNet 作为它的基础编码器,并且也以类似于U-Net的方式,在每一层级上将编码器和解码器进行拼接。
在这里插入图片描述
8. E-Net 和 Link-Net
E-Net 论文ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation
Link-Net 论文LinkNet: Feature Forwarding: Exploiting Encoder Representations for Efficient Semantic Segmentation

LinkNet 架构类似于一个梯形网络架构,编码器的特征图(横向)和解码器的上采样特征图(纵向)相加。还需要注意的是,由于它的通道约减方案,解码器模块包含了相当少的参数。
例如大小为[H, W, n_channels]的特征图先通过11卷积核得到大小为[H, W, n_channels / 4]的特征图,然后使用反卷积将其变为[2H, 2W, n_channels / 4],最后使用11卷积使其大小变为[2H, 2W, n_channels / 2],因此解码器有着更少的参数。

9. Mask R-CNN
论文Mask R-CNN
链接推荐Mask R-CNN
Mask R-CNN是Faster R-CNN 架构的扩展,在其基础上进行必要的修改,以执行语义分割。
关键特点
(1)在Faster R-CNN 上添加辅助分支以执行语义分割
(2)对每个实例进行的 RoIPool 操作已经被修改为 RoIAlign ,它避免了特征提取的空间量化,因为在最高分辨率中保持空间特征不变对于语义分割很重要。
在2017-06-01的时候,在网络上还没有 Mask R-CNN 的工作实现,而且也没有在 Pascal VOC 上进行基准测试,但是它的分割掩码显示了它与真实标注非常接近。

10. PSPNet
论文PSPNet: Pyramid Scene Parsing
关键特点
(1)PSPNet 通过引入空洞卷积来修改基础的 ResNet 架构,特征经过最初的池化,在整个编码器网络中以相同的分辨率进行处理(原始图像输入的1/4),直到它到达空间池化模块。
(2)在 ResNet 的中间层中引入辅助损失,以优化整体学习。
(3)在修改后的 ResNet 编码器顶部的空间金字塔池化聚合全局上下文。
在这里插入图片描述
11. RefineNet
论文RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
RefineNet 解决了传统卷积网络中空间分辨率减少的问题,与 PSPNet(使用计算成本高的空洞卷积)使用的方法非常不同。提出的架构迭代地池化特征,利用特殊的 RefineNet 模块增加不同的分辨率,并最终生成高分辨率的分割图。
关键特点
(1)使用多分辨率作为输入,将提取的特征融合在一起,并将其传递到下一个阶段。
(2)引入链式残差池化,可以从一个大的图像区域获取背景信息。它通过多窗口尺寸有效地池化特性,利用残差连接和学习权重方式融合这些特征。
(3)所有的特征融合都是使用sum(ResNet 方式)来进行端到端训练。
(4)使用普通ResNet的残差层,没有计算成本高的空洞卷积。

12. G-FRNet(Gated Feedback Refinement Network)
论文G-FRNet: Gated Feedback Refinement Network for Dense Image Labeling
在每个阶段,通过使用门控细化反馈单元,控制从编码器传送到解码器的信息流,这样可以帮助解码器解决歧义,并形成更相关的门控空间上下文。
在这里插入图片描述
13. 半监督语义分割DecoupledNet
论文Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation
算法将分类和分割分离,并为每个任务学习一个单独的网络。在这个架构中,通过分类网络识别与图像相关的标签,然后在分割网络中对每个识别的标签执行二进制分割。它通过利用从桥接层获得的特定类的激活图来有效地减少用于分割的搜索空间。
这也许是第一个使用全卷积网络进行语义分割的半监督方法。
关键特点
(1)分离分类和分割任务,从而使预训练的分类网络能够即插即用(plug and play)。
(2)分类和分割网络之间的桥接层生成突出类的特征图(k类),然后输入分割网络,生成一个二进制分割图(k类)但是,这个方法在一张图像中分割k类需要传递k次。
在这里插入图片描述
14. 基于GAN的半监督语义分割方法
论文Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network
基于生成对抗网络(GANs)提出了一种半监督框架,它包含一个生成器网络以提供额外的用于多类别分类器的训练样本,作为在 GAN 框架中的判别器,从K个可能的类中为样本分配一个标签y或者将其标记为一个假样本(额外的类)。

数据集

数据集包括
CamVid,
PascalVOC 2012,
NYUDv2,
Cityscapes,
Sun-RGBD,
MS COCO,
ADE20K
在这里插入图片描述
上表截自:蓝三金的文章

猜你喜欢

转载自blog.csdn.net/weixin_44845357/article/details/120476531