fig1

前置内容-PPM

PSPNet模型最主要的特点是采用了PSP模块。

该模型提出的金字塔池化模块(Pyramid Pooling Module)能够聚合不同区域的上下文信息，从而提高获取全局信息的能力。实验表明这样的先验表示(即指代PSP这个结构)是有效的，在多个数据集上展现了优良的效果。

PSP结构的功能是将获取到的特征层划分成不同大小的网格，每个网格内部各自进行平均池化。实现聚合不同区域的上下文信息，从而提高获取全局信息的能力。

在PSPNet中，PPM会将输入进来的特征层划分成6x6，3x3，2x2，1x1的网格，对应了图片中的绿色、蓝色、橙色、红色的的输出：
fig0
其中：

红色：将输入进来的特征层整个进行平均池化。
橙色：将输入进来的特征层划分为2×2个子区域，然后对每个子区域进行平均池化。
蓝色：将输入进来的特征层划分为3×3个子区域，然后对每个子区域进行平均池化。
绿色：将输入进来的特征层划分为6×6个子区域，然后对每个子区域进行平均池化。

在各个分支上使用卷积对其调整通道数，然后上采样到同样大小并concat得到输出的特征。

摘要

人类可以在多个层次上识别视觉世界：我们可以轻松地对场景进行分类并检测其中的对象，同时还可以识别对象的纹理和表面及其不同的组成部分。在本文中，我们研究了一个称为统一感知解析的新任务，该任务要求机器视觉系统从给定图像中识别尽可能多的视觉概念。我们开发了一个称为UPerNet的多任务框架和一种训练策略来学习异构图像标注（heterogeneous image annotations）。我们在统一感知解析的基础上对我们的框架进行了测试，结果表明它能够有效地从图像中分割出更广泛的语义概念。经过训练的网络被进一步应用于发现自然场景中的视觉知识。

1.Introduction

人类视觉系统能够从一眼中提取大量语义信息。我们不仅可以立即解析其中包含的对象，还可以识别对象的细粒度属性，例如其零件、纹理和材质（parts，textures and materials）。例如，在图1中，我们可以认识到这是一个客厅，里面有各种对象，如茶几、绘画和墙壁。同时，我们确定咖啡桌有腿、围裙和顶部，咖啡桌是木制的，沙发表面是针织的。我们对视觉场景的解读是多层次的，从材料和纹理的视觉感知到对象和部件的语义感知。
fig2

图1：为统一感知解析而训练的网络能够同时解析场景scene、对象object、零件part、纹理texture和材质material等多个感知层次上的各种视觉概念。它还确定了检测到的概念之间的组成结构。

由于深层神经网络和大规模图像数据集的发展，计算机视觉在人类视觉识别方面取得了巨大进展。然而，各种视觉识别任务大多是独立研究的。比如，对象识别和场景识别已经达到了人类水平；在像素级精确解析和分割语义内容上，有工作研究了纹理和材料感知与识别。由于场景识别、目标检测、纹理和材料识别在人类视觉感知中交织在一起，这就为计算机视觉系统提出了一个重要问题：神经网络是否有可能同时解决多个视觉识别任务？这促使我们的工作引入一个新的任务，称为统一感知解析（UPP，Unified Perceptual Parsing），以及一种新的学习方法来解决它。

UPP有几个挑战。首先，没有一个单独的图像数据集标注了所有不同级别的视觉信息。各种图像数据集仅为特定任务而构建，例如用于场景解析的ADE20K（语义分割）、用于纹理识别的Describable Textures Dataset（DTD），以及用于材质和表面识别的OpenSurfaces。其次，来自不同感知层次的注释是异质的（heterogeneous），例如，ADE20K具有像素级注释，而DTD中纹理的注释是图像级的。

为了应对上述挑战，我们提出了一个框架，该框架克服了不同数据集的异构性（heterogeneous），并学会了联合检测各种视觉概念。一方面，在每次迭代中，我们随机抽取一个数据源，只更新对应路径上的相关层，以从所选源推断概念。这样的设计避免了不稳定的行为（相对于某个概念的注释的梯度可能有噪声）。另一方面，我们的框架利用了单个网络中特征的层次性，即对于具有较高语义的概念（如场景分类），分类器仅构建在具有较高语义的特征图上；对于低级语义，如对象和材料分割，分类器构建在各个阶段融合的特征图或具有低级语义的特征图上。另外，我们进一步提出了一种训练方法，使网络能够仅使用图像级注释预测像素级纹理标签 。

我们的贡献总结如下：

提出了一种新的解析任务即统一感知解析，它要求系统同时解析多个视觉概念。
我们提出了一种新的具有层次结构的UPerNet，用于从多个图像数据集中的异构数据中学习。
该模型能够联合推断和发现图像下丰富的视觉知识。

1.1.Related work

我们的工作是建立在语义分割和多任务学习的基础上的。

语义分割
为了生成给定图像的像素级语义预测，现有工作对图像分类网络进行了扩展，以生成语义分割掩码。Chen等人的开创性工作基于结构预测，使用条件随机场（CRF）优化CNN最终特征图的激活。为像素级分类任务设计的最流行的框架是全卷积网络（FCN），它用卷积层替换分类网络中的全连接层。Noh等人提出了一个框架，将反卷积应用于上采样的低分辨率特征图。Yu和Vladlen提出了一种基于扩展卷积的架构，该架构能够在不增加参数的情况下以指数方式扩展感受野。最近，RefineNet 使用了一种从粗到精的架构，该架构利用了向下采样过程中可用的所有信息。金字塔场景解析网络（PSPNet）在多个网格尺度上执行空间pooling，并在多个分割基准上取得显著性能。

多任务学习
多任务学习旨在训练模型同时完成多个任务，早在深度学习时代之前就受到了关注。例如，以前的一些研究工作侧重于识别和分割的结合。最近，Elhoseiny等人提出了一种同时执行姿态估计和对象分类的模型。Eigen和Fergus提出了一种联合处理深度预测、表面法线估计和语义标记的体系结构。Teichmann等人提出了一种通过共享特征提取器执行分类、检测和语义分割的方法。Kokkinos提出了UberNet，这是一种深层的体系结构，能够依靠不同的训练集完成七项不同的任务。最近的另一项工作提出了一种弱监督的训练范式，仅使用box注释将对象分割扩展到3000个对象。与之前的多任务学习工作相比，只有少数人在异构数据集上执行多任务学习（即不一定在所有任务上都有所有级别的注释的数据集）。此外，尽管有些工作里描述的任务是从低级到高级的形式，如边界检测、语义分割和目标检测，但这些任务不构成视觉概念的层次结构。在4.2节中，我们进一步证明了我们提出的任务和框架在从图像中发现丰富视觉知识方面的有效性。

2.统一感知解析的定义

我们将统一感知解析的任务定义为从给定图像中尽可能多地识别视觉概念。可能的视觉概念分为几个级别：从场景标签、对象和对象的部件，到对象的材质和纹理。该任务取决于不同类型训练数据的可用性。由于没有一个图像数据集在多个层次上对所有视觉概念进行注释，因此我们首先通过组合多个图像注释源来构建图像数据集。

2.1.Datasets

为了从多个层次上完成各种视觉概念的分割，我们利用了Broadly and Densely Labeled Dataset（Broden），这是一个包含各种视觉概念的异构数据集。Broden统一了几个密集标记的图像数据集，即ADE20K、Pascal Context、Pascal Part、OpenSurfaces和Describable Textures Dataset（DTD）。这些数据集包含各种上下文中广泛的场景、对象、对象part、材质和纹理的示例。对象、对象part和材质被分割到像素级，而纹理和场景则在图像级进行注释。

Broden数据集提供了广泛的视觉概念。尽管如此，由于最初收集这些数据是为了发现视觉概念与卷积神经网络（CNN）隐藏单元之间的一致性，以实现网络的可解释性，另外，我们发现不同类别的样本是不平衡的。因此，我们将Broden数据集标准化，使其更适合于训练分割网络。

首先，我们在不同的数据集中合并类似的概念。例如，ADE20K、PascalContext和Pascal Part中的对象和其part注释被合并和统一。
其次，我们只包含出现在至少50幅图像中的对象类，并且在整个数据集中包含至少50000个像素。此外，出现在至少20幅图像中的对象part可以被视为有效part。手动删除概念上不一致的对象和part。
第三，我们在OpenSurfaces（用于材质和表面识别）中手动合并采样标签下的标签。例如，石头和混凝土合并为石头，而透明塑料和不透明塑料合并为塑料。出现在少于50幅图像中的标签也会被过滤掉。
第四，我们将ADE20K数据集中的400多个场景标签映射到Places数据集中的365个标签。

表1显示了我们的标准化Broden的一些统计数据，称为Broden+。它总共包含57095幅图像，包括来自ADE20K的22210幅图像、来自Pascal上下文和Pascal部分的10103幅图像、来自OpenSurfaces的19142幅图像和来自DTD的5640幅图像。图2展示了对象，以及按所属对象分组的部件的分布。我们还提供了图3中Broden+数据集的每个源的示例。
fig3

表1：Broden+数据集中每种标签类型的统计信息。还列出了每种类型标签的评估指标。

fig4

图2：a：按频率对对象类进行排序：我们显示了从Broden+中选择的前120个类。已经对出现在少于50幅图像中或包含少于50000像素的对象类进行过滤。b：按对象分组的part的频率。我们仅显示前30个对象及其前5个常见part。已经过滤了出现在少于20个图像中的part。

fig5

图3：来自Broden+数据集的样本。场景scene和纹理texture的GT是图像级注释，而对象object、部件part和材质material是像素级注释。对象和部件被密集注释（全图像素都有类别），而材质被部分注释（全图部分像素有类别）。带有纹理标签的图像大多是这样的局部对象区域（localized object regions）。

2.2.Metrics

为了量化模型的性能，我们根据每个数据集的注释设置不同的度量。评估语义分割任务的标准指标包括像素准确度（PA），它表示正确分类像素的比例，以及 Mean IoU（mIoU），它表示所有类别的平均预测与GT的像素之间的交并比。请注意，由于图像中可能存在未标记区域，因此mIoU度量将不计算未标记区域的预测。这将鼓励人们在训练期间排除背景标签。但是，它不适用于评估部件part分割任务，因为对于某些对象，具有部件标注的区域只占少量像素。因此，我们在part分割任务中除了计算mIoU，还要计算背景区域的预测（表示为mIoU-bg）。在训练过程中排除背景标签将大大提高PA，但这将大大降低mIoU-bg的性能。

对于涉及ADE20K、Pascal-Context和OpenSurfaces的对象和材质解析，注释是在像素级别。ADE20K和Pascal-Context中的图像都有密集的注释，其中不属于任何预定义类的区域被归类为未标记类（unlabeled class）。OpenSurfaces中的图像会进行部分注释，即一幅图像中可能会有多个区域不进行注释。我们使用PA和mIoU指标来完成这两项任务。

出于上述原因，对于对象的part，我们使用PA和mIoU-bg指标。每个part的IoU首先在对象类别内求平均值，然后在所有对象类别上求平均值。对于场景和纹理分类，我们使用top-1 Acc。表1列出了评估指标。

为了平衡不同类别中不同标签的样本，我们首先随机抽取10%的原始图像作为验证集。然后，我们从训练集和验证集中随机选择一幅图像，并检查在交换这两幅图像后，像素级的注释是否更加平衡，并且接近10%。该过程是迭代执行的。该数据集分为51617张图像进行训练，5478张图像进行验证。

3.Designing Networks for Unified Perceptual Parsing

我们在图4中展示了我们的网络设计，称为UPerNet（统一感知解析网络），基于特征金字塔网络（FPN，自底向上即下采样+自上向下即上采样，并且在两个金字塔的同等级特征图上横向连接）。FPN是一种通用特征提取器，它利用固有金字塔层次结构中的多级特征表示。它使用具有横向连接的自上而下的体系结构，将高级语义信息融合到中低级中，而额外的成本微乎其微。不同于常规的FPN，我们在最后一层上应用了PSPNet中的金字塔pooling模块（PPM），然后将其馈入FPN中的自上向下分支。经验上，我们发现PPM可以带来有效的全局先验表示，并且与FPN体系结构高度兼容。
fig6

图4：统一感知解析的UPerNet框架。左上：特征金字塔网络（FPN），在将其送入FPN中自上而下的分支之前，将金字塔pooling模块（PPM）附加在backbone网络的最后一层。右上角：我们在不同的语义级别上使用特征。由于图像级信息更适合场景分类，因此scene head直接在PPM之后的特征图上。对象和零件head在由FPN输出的所有层融合的特征图上。材质head以最高分辨率附着在FPN中的特征图上。纹理head附着在ResNet中的Res-2 block上，在整个网络完成其他任务的训练后进行微调。底部：不同head的插图。详情见第3节。

有了新的框架，我们训练一个能够在多个层次上统一视觉属性解析的单一网络。我们的框架是基于残差网络的。我们将ResNet中每个stage的输出特征图表示为{C2、C3、C4、C5}，将FPN输出的特征映射集表示为{P2、P3、P4、P5}，其中P5是直接跟随PPM的特征映射。下采样率分别为{4、8、16、32}。

场景标签（Scene label）是在图像级标注的最高级属性，我们通过P5的全局平均pooling和线性分类器进行预测。值得注意的是，与基于空洞卷积网络的框架不同，P5的下采样率相对较大，因此全局平均pooling之后的特征更侧重于高级语义。对于对象标签（Object label），我们发现融合（Fuse）FPN的所有特征图比仅使用分辨率最高的特征图P2要好。Object part的分割和object使用相同的特征图。对于material，直观地说，如果我们事先知道这些区域属于物体“杯子”，我们就能够合理地推测它可能是由纸或塑料组成的。这个上下文很有用，但我们仍然需要局部明显的特征来决定哪一个是正确的。还应注意，物体可以由各种材质组成。基于以上观察，我们在P2上分割material，而不是融合特征。对于Texture label，纹理标签是在图像级别给出的，纹理图像的数据通常来自非自然图像。直接将这些图像与其他自然图像融合（风格迁移）对其他任务有害。我们还希望网络能够在像素级预测纹理标签。为了实现这一目标，我们在C2的顶部添加了几个卷积层，并强制网络预测每个像素处的纹理标签。该分支的梯度被阻止反向传播到backbone网络层，纹理的训练图像被调整到较小的大小(64×64）。这些设计背后的原因是：

纹理是最低级的感知属性，因此它完全基于浅层的特征，不需要任何高级信息；
当在其他任务上进行训练时，可以隐式学习正确预测纹理的基本特征；
该分支的感受野需要足够小，以便当正常比例的图像馈入网络时，网络能够预测不同区域的不同标签。

只有在整个网络完成其他任务的训练后，我们才能对纹理分支进行几次微调。

当只接受object监督信号的训练时，没有进一步的增强，我们的框架产生的性能几乎与最先进的PSPNet相同，而对于相同数量的epoch，只需要63%的训练时间。值得注意的是，根据PSPNet论文中的实验，我们甚至没有对PSPNet中使用的数据进行深度监督或数据增强。

3.1.实现细节

每个分类器前面都有一个单独的卷积head。为了融合具有不同尺度的层，例如{P2，P3，P4，P5}，我们通过双线性插值将它们调整为P2的大小并连接这些层。然后应用卷积层来融合不同级别的特征，并减少通道维数。所有额外的非分类器的卷积层，包括FPN，具有512通道输出的batch normalization，batch normalization后应用ReLU。我们使用“Poly”学习率策略，其中当前迭代的学习率等于初始学习率乘以 $(1-\frac{iter}{maxiter})^{power}$ ，初始学习速率和power分别设置为0.02和0.9。我们使用0.0001的weight decay和0.9的动量。在训练期间，调整输入图像的大小为450。backbone网络中的各层使用在ImageNet上预先训练的权重进行初始化。

在每次迭代过程中，如果一个小批次由来自不同任务的多个源的图像组成，那么相对于某个任务的梯度可能会有噪声。因此，我们根据每个数据源的规模在每次迭代中随机抽样一个数据源，并且只更新对应路径来推断与所选数据源相关的概念。对于object和material，我们不计算未标记区域的损失。对于part，如第2.2节所述，我们添加背景也作为有效标签。

由于物理内存的限制，每个GPU上的小批量只涉及2个图像。我们在8个GPU上采用SGD同步训练。值得注意的是，批量大小对于为分类、语义分割和目标检测等任务生成准确的统计数据非常重要。我们实现了batch normalization，以便能够跨多个GPU进行同步。我们在训练期间不固定任何batch normalization层。ADE20k的训练迭代次数就是100k。如果在较大的数据集上进行训练，我们会根据数据集中的图像数量线性增加训练迭代次数。

3.2.设计的讨论

最先进的分割网络主要基于全卷积网络（FCN）。由于缺乏足够的训练样本，分割网络通常由预先训练用于图像分类的网络初始化。为了实现语义分割的高分辨率预测，提出了空洞卷积，以减轻下采样的副作用，同时保持感受野的扩展率。空洞卷积网络已经成为语义分割的baseline。

我们认为，空洞卷积框架对于所提出的统一感知解析任务有着严重的缺点。首先，最近提出的深层CNN，它在图像分类和语义分割等任务上取得了成功，通常有几十层或数百层。这些深层CNN的设计非常复杂，为了获得更大的感受野和更轻量的计算复杂度，下采样率在网络的初始层快速增长。例如，在总共有100个卷积层的ResNet中，Res-4和Res-5块组合中有78个卷积层，下采样率分别为16和32。实际上，在空洞卷积分割框架中，需要对两个块应用空洞卷积，以确保所有特征图的最大下采样率不超过8。然而，由于两个块内的特征图增加到其指定大小的4到16倍，计算复杂性和GPU内存占用都显著增加。第二个缺点是，这种空洞卷积框架只使用网络中最深的特征图。之前的工作已经表明了网络中特征的层次性，即较低层倾向于捕捉局部特征，如角点或边缘/颜色连接，而较高层倾向于捕捉更复杂的模式，如某些对象的part。使用具有最高级别语义的特征对于分割对象等高级概念可能是合理的，但自然不适合在多个级别分割感知属性，尤其是纹理和材质等低级属性。在下面的内容中，我们将演示我们的UPerNet的有效性和效率。

4.Experiment

实验部分组织如下：我们首先介绍了我们提出的框架在原始语义分割任务上的定量研究，以及4.1节的UPP任务。然后，我们在第4.2节中应用该框架来发现场景理解背后的视觉常识知识（visual common sense knowledge）。

4.1.Main result

4.1.1.Overall architecture

为了证明我们提出的语义分割体系结构的有效性，我们在表2中报告了在不同设置下使用object注释在ADE20K上训练的结果。总的来说，FPN在显示出竞争性的同时，语义分割所需的计算资源要少得多。使用仅一次向上采样且向下采样率为16（P4）的特征图，它达到了34.46/76.04的mIoU和PA，几乎与目前的最优秀baseline相同，而对于相同的迭代次数，只需要大约1/3的训练时间。分辨率更高时，性能会进一步提高。添加金字塔pooling模块（PPM）可将性能提高4.87/3.09，这表明FPN还存在感受野不足的问题。从经验上看，我们发现融合所有级别FPN的特征可以产生最佳性能。

FPN的性能令人惊讶，因为它仅仅是通过双线性插值简单地对特征图进行上采样，而不是耗时的反卷积，并且自顶向下的路径通过1x1卷积层与自下而上的路径进行融合，然后进行元素求和，而无需任何复杂的模块。正是这种简单实现了它的效率。因此，我们采用这种设计来进行统一的感知解析。

fig02

表2：使用基于ADE20K数据集上的ResNet-50 以及最新方法对我们的框架进行详细分析。我们的结果是在没有多尺度推理或其他技术的情况下得到的。FPN baseline具有竞争力，需要的计算资源要少得多。进一步提高特征图的分辨率可以带来一致的效果提升。PPM与FPN高度兼容。从经验上看，我们发现融合所有级别FPN的特征可以获得最佳性能。

fig03

表3：Broden+数据集的统一感知分析结果。O为对象，P为部件，S为场景，M为材质，T为纹理。mI为mIoU，mI(bg)为包括背景在内的mIoU，T-1为Top1-Acc。

4.1.2.Multi-task learning with heterogeneous annotations

我们报告了在单独或融合不同注释集上训练的结果。object解析的baseline是在ADE20K和Pascal-Context上训练的模型。mIoU和PA为24.72/78.03。单独与ADE20K的结果相比，这个结果相对较低，因为Broden+有更多的object类。material的baseline是在OpenSurface上训练的模型。mIoU和PA为52.78/84.32。object和part解析的联合训练在object上产生结果23.92/77.48，在part上产生结果30.21 /48.30。经过训练的加part标注的object解析性能与仅在object标注上训练的性能几乎相同。在添加scene预测分支后，它在scene分类方面的准确率达到了71.35%，而object和part性能的降低可以忽略不计。当使用object、part和scene联合训练material时，material解析的性能为54.19/84.45，object解析的性能为23.36 /77.09，part解析的性能为28.75 /46.92。值得注意的是，由于异质性，object和part的性能都略有下降，而material的性能比仅在OpenSurface上训练时要高。

我们推测，这是由于对象中的信息作为材质解析的先验信息导致的。如上所述，我们发现直接将纹理图像与其他自然图像融合对其他任务有害，因为DTD中的图像与自然图像之间存在着巨大的差异。在使用所有其他任务训练的模型对纹理图像进行微调后，我们可以通过选取最高频的像素级预测作为图像级预测来获得定量纹理分类结果。分类精度为35.10。纹理上的性能表明，仅微调纹理标签上的网络不是最佳的，然而，这是克服自然和合成数据源融合的必要步骤。我们希望未来的研究能够找到更好地利用这种图像级注释进行像素级预测的方法。

我们提供了UPerNet的定性结果，如图5所示。UPperNet能够统一合成视觉知识，同时有效地预测层级输出。
fig7

图5：使用UPerNet（ResNet-50）对验证集进行预测。从左到右：场景分类，以及对象、部件、材质和纹理分析。

4.2.在自然场景中发现视觉知识

统一感知解析需要一个能够从给定图像中识别尽可能多的视觉概念的模型。如果一个模型成功地实现了这一目标，它就可以发现真实世界背后丰富的视觉知识，比如回答“客厅和卧室之间有什么共同点？”或者“制造杯子的材料是什么？”自然场景中视觉知识的发现甚至推理将使未来的视觉系统能够更好地了解其周围环境。在本节中，我们将演示在Broden+上训练的框架能够在多个层次上发现合成视觉知识。这也是在异构数据注释上训练的网络的特殊应用。我们使用验证集Places-365，其中包含来自365个场景的36500幅图像，作为我们的测试平台，因为Places数据集包含来自各种场景的图像，并且更接近真实世界。我们以层次的方式定义了几种关系，即场景-对象关系、对象-部件关系、对象-材质关系、部件-材质关系和材质-纹理关系。请注意，只有对象-部件关系可以直接从GT注释中读取，其他类型的关系只能从网络预测中提取。

4.2.1.Scene-object relations

对于每个场景，我们统计通过该场景的对象数。我们将关系表示为二分图 $G = (V, E)$ ，包括集合 $V=V_{s}\cup V_{o}$ 为场景和对象的并集，与边的集合 $E$ 。权重从 $v_{s}$ 到 $v_{o}$ 的边表示对象 $v_{o}$ 出现在场景 $v_{s}$ 中的可能性百分比。没有边连接两个都来自 $V_{s}$ 或都来自 $V_{o}$ 的节点。我们过滤权重低于阈值的边，并运行聚类算法以形成更好的布局。由于空间限制，我们只对几十个节点进行了采样，并在图6a中显示了图的可视化。
fig8

图6a：场景-对象关系的可视化（基于聚类算法得到的布局）。室内场景和室外场景分为不同的组（上图顶部的左侧和右侧）。我们还可以定位出现在各种场景中的常见对象，或者在特定场景中查找对象（左下角和右下角）。

我们可以清楚地看到，室内场景主要共享天花板ceiling、地板floor、椅子chair或窗格windowpane等对象，而室外场景主要共享天空sky、树木tree、建筑building或山mountain等对象。更有趣的是，即使在场景集中，人造场景（human-made）和自然场景（natural scene）也被分为不同的组。在布局中，我们还可以定位出现在各种场景中的常见对象，或找到特定场景中的对象。图6a中的左下角和右下角图片展示了一个示例，在该示例中，我们可以合理地得出结论，货架shelf通常出现在商店shop、仓库stores和杂物间utility room中；直升机场heliport通常有树木tree、栅栏fences、跑道runways、人员persons，当然还有飞机airplanes。

4.2.2.Object(part)-material relations

除了场景-对象关系之外，我们还可以发现对象-材质关系。UPerNet在每个像素处预测对象和材质的标签，通过在每个像素处计算每个对象中每个材质的百分比，可以直接将对象与其关联材质对齐。与场景-对象关系类似，我们构建了一个二分图，并在图6b的左侧显示了其可视化效果。利用这个图，我们可以推断出一些水槽sinks是陶瓷ceramic的，而另一些是金属metallic的；不同的地板floors有不同的材料，如木材wood、瓷砖tile或地毯carpet。天花板ceiling和墙壁wall已涂漆painted；天空sky也是“painted”，这更像是一个隐喻。然而，我们也可以看到，大多数床bed是织物fabric而不是木材wood，这是由于床上的实际物体造成的错位。直观地说，对象中某个part的材质将更加单调。我们在图6b中间显示了部件-材料可视化。

fig9

图6b：从左到右为对象-材质关系、部件-材质关系和材质-纹理关系的可视化。我们能够发现知识，例如一些水槽sinks是陶瓷ceramic的，而另一些是金属metallic的。

4.2.3.Material-texture relations

一种类型的材质可能具有各种纹理。但材质的视觉描述是什么？我们在图6b的右侧显示了材质-纹理关系的可视化。值得注意的是，尽管纹理标签缺少像素级注释，但我们仍然可以生成合理的关系图。例如，地毯carpet可以描述为无垫matted、有污点blotchy、有污渍stained、交叉影线crosshatched和凹槽grooved。

在表4中，我们进一步展示了通过UPerNet发现的一些视觉知识。对于场景-对象关系，我们选择出现在至少30%场景中的对象。对于对象-材质、部件-材质和材质-纹理关系，我们最多选择前3个候选对象，使用阈值对其进行过滤，并对其频率进行标准化。我们能够发现构成每个场景的常见对象，以及每个对象或部件由某种材料构成的程度。UPerNet提取和总结的知识与人类知识是一致的。该知识库提供了各种类型概念的丰富信息。我们希望这些知识库能够为未来的智能agent理解不同的场景与理解真实世界提供帮助。
fig10

表4：UPerNet为UPP训练，并发现视觉知识，UPerNet能够提取合理的视觉知识。

个人总结

UPerNet主要是在已有数据集上创建一个适合多任务探索的数据集，然后提出多个head的分支去联合学习多任务；
UPerNet的实验中表明PPM与FPN具有良好的兼容性，适合得到不同级别的特征；
这个工作提出了一种新的解析任务即统一感知解析，它要求系统同时解析多个视觉概念；
UPerNet是一种具有层次结构的网络，用于从多个图像数据集的异构数据中学习视觉概念。

场景理解的统一感知分析ECCV2018

目录