迁移学习与实例分割（ResNeXt）

前情提要

前四期我们提到了

迁移学习与计算机视觉

迁移学习与图像分类

迁移学习与目标检测（faster RCNN）

迁移学习与语义分割（Seg Net）

接下来为大家讲解

迁移学习与实例分割（ResNeXt）

简约线条树木小图标分割线组合

实例分割的任务是将先用目标检测方法将图像中的不同实例框出，再用语义分割方法在不同包围盒内进行逐像素分类，本质上就是目标检测与语义分割的综合任务。Kaiming He等人[14]提出的Mask R-CNN模型则能完成实例分割任务，模型结构如图 7.11所示。它整体的网络还是采用faster RCNN的框架结构，只不过是在faster RCNN的基础上增加了语义分割方法，也就是多加了一个全连接卷积网络分支，从而将原本的双任务（分类，回归）转换成了三任务（分类，回归，分割）。此时整体网络的loss为公式（7.5）所示。

图 7.11 Mask R-CNN

与此同时，Mask R-CNN也对网络结构做了相应的改进：

1. 使用了更好的特征抽取器如ResNeXt-101+FPN作为基础网络

其中，FPN是由Lin等人[***]提出的一种有效的网络，全称为特征金字塔中间网络（Feature Pyramid Network）。FPN使用具有横向连接的自上而下的体系结构，可以根据单比例输入构建网络内要素金字塔。具有FPN的基础网络可以根据特征金字塔的规模从不同级别的功能金字塔中提取RoI特征。使用ResNet-FPN作为基础网络进行特征提取，可以在准确性和速度上获得出色的收益。

2. RoIAlign

虽然微小偏移对目标检测任务影响不大，但却对像素级别分类的实例分割准确率却有致命影响。为了解决这个问题，作者提出RoiAlign层来解决Roil Pool对特征图量化（即Max Pooling）导致得到的mask与实践物体产生微小偏移的问题，具体的操作就是对特征图上每一个点插多个值以消除量化影响。

如图 7.12所示，虚线网格表示一个特征图，实线表示RoI（在此示例中为2×2格），RoIAlign通过双线性插值在一个点中插入多个值，再进行量化，相当于没有执行量化操作或者降低了量化带来的影响。

图 7.12 RoIAlign运算

参考文献

[14] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]. Proceedings of the IEEE international conference on computer vision, 2017: 2961-2969

[***]T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and ´S. Belongie. Feature pyramid networks for object detection.In CVPR, 2017. 2, 4, 5, 7