HRNet

 Abstract

问题:如何学习一个高分辨率的特征图?大多数网络是从低分辨率特征图中恢复高分辨率特征图,而我们的方法是在整个过程中始终维持高分辨率特征图。

1.Introduction

我们提出HRNet,在整个卷积过程中都一直维持分辨率的表示。We start from a high-resolution subnetwork as the first stage, gradually add high-to-low resolution subnetworks one by one to form more stages, and connect the multi-resolution subnetworks in parallel. 

我们网络的优点:

(1)通过并行的方式,而不是串行的方式将不同分辨率的特征图进行融合。在整个卷积过程都能位置高分辨率的特征图,而不是从低分辨率特征图中恢复高分辨率特征图,因此特征更准确

(2)大多数现有的融合方案都汇总了低级和高级表示。 而我们执行重复的多尺度融合,以借助相同深度和相似水平的低分辨率表示来增强高分辨率表示,反之亦然,从而导致高分辨率表示也丰富了

2.Related work

几种常见的有特征融合的网络结构

(a)Hourglass 含有残差连接

3.我们的方法介绍

Sequential multi-resolution subnetworks: 通过串行结构获得的多个分辨率的子网络

Parallel multi-resolution subnetworks:通过并行结构获得的多个分辨率的子网络

不同分辨率的特征图的融合方法:

损失函数的设计:

因为是对关键点预测,所以采用了L2 loss+高斯分布的方式:

The groundtruth heatmpas are generated by applying 2D Gaussian with standard deviation of 1 pixel centered on the grouptruth location of each keypoint.对标注的每个关键点,用高斯分布做模糊处理,作为预测结果的ground_truth。

4.实验结论

Alablation study:

Repeated multi-scale fusion

Resolution maintenance:从低分辨率子网的早期阶段提取的低级别功能的帮助较小。

Representation resolution:与baseline的方法相比,输入图片的尺寸越小,我们模型的改善月明显。这对于实际使用时,对计算量有限制的情况,有很好的的改善

问题:

特征图的高分辨率代表什么?

代表更dense的特征的提取。以前提取特征是每隔N个像素进行提取,现在是每隔更少的像素进行特征提取,所以特征图更dense。Dense的好处是不会漏掉目标,而且定位会更加准确。高分辨率特征图不能代表更底层,更细节的信息。细节和语义信息更取决于特征图的感受野和处于第几层。

发布了90 篇原创文章 · 获赞 13 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/qq_32425195/article/details/104678374
今日推荐