Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention

近年来,由于深层字幕架构将卷积神经网络提取图像表示,再利用递归神经网络生成相应的字幕,令人印象深刻的成就使图像字幕获得了广泛的关注。同时,针对显着性预测模型的开发已经进行了重大研究,该模型可以预测人眼注视。尽管显着性信息可能有助于调节图像字幕体系结构,但是通过提供什么是显着的,什么不是显着的指示,研究仍在努力地将这两种技术结合在一起。在这项工作中,我们提出了一种图像字幕方法,其中,通过利用显着性预测模型提供的条件(在图像的某些部分位于图像上),生成的递归神经网络可以在字幕的生成过程中专注于输入图像的不同部分。突出,并且是上下文相关的。通过对大规模数据集进行广泛的定量和定性实验,我们表明,在具有和不具有显着性的字幕基线以及结合显着性和字幕的最新技术水平方面,我们的模型均具有出色的性能。

CCS概念:•计算方法→场景理解; 自然语言生成;
其他关键词和短语:显着性,视觉显着性预测,图像字幕,深度学习。

1 INTRODUCTION

计算机视觉和人工智能的核心问题是建立一个可以复制人类理解视觉刺激并以自然语言描述它的能力的系统。 确实,这种系统将对社会产生巨大影响,为人机交互与协作的新进展打开了大门。 计算机视觉和机器翻译的最新进展以及大型数据集的可用性使生成描述图像的自然句子成为可能。 特别是,深层图像字幕体系结构在发现视觉描述符与单词之间的映射方面显示出令人印象深刻的结果[24、55、56、59]。 他们结合了卷积神经网络(CNN)来提取图像表示,并结合了递归神经网络(RNN)来构建相应的句子。

虽然这些技术的进步是令人鼓舞的,但是人类在句子的构造和表达方面的能力在今天的图像字幕系统中仍然远远没有得到充分的模仿。当人类描述一个场景时,他们在用句子命名一个对象之前会先观察它[14],并且他们不会以相同的强度聚焦于每个区域,因为选择性机制会吸引他们对场景显著性和相关部分的关注[43]。此外,他们使用周边视觉来关注上下文,因此图像的描述不仅暗示场景中的主要对象,以及它们之间的相互关系,而且还暗示它们放置在图像中的上下文。

在计算机视觉界已经进行了深入的研究,以预测人类在图像中所处的位置。 这项任务称为显着性预测,已在早期工作中得到了解决,方法是定义可捕获低级提示(例如颜色和纹理)或高级概念(如脸部,人和文字)的手工特征[4,19,23]。 最近,随着深度神经网络和大型带注释数据集的出现,显着性预测技术已经获得了令人印象深刻的结果,这些结果生成的地图与用眼动设备计算出的地图非常接近[8、18、20]。

尽管在图像字幕和视觉显著性方面取得了令人鼓舞的进展,并且它们之间有着密切的联系,但这两个领域的研究仍然几乎是分开的。事实上,最近在这方面的尝试很少[48,52]。Sugano等人[48]特别提出了一种基于人眼注视(即注视特定位置的静态)的图像字幕注视辅助注意机制。虽然这种策略证实了使用眼睛注视的重要性,但它需要来自人类操作者的注视信息。因此,它不能应用于一般的可视化数据档案中,这些信息是丢失的。为了克服这一限制,Tavakoli等人[52]提出了一种基于显著性映射的图像字幕方法,该方法可以从输入图像中自动预测。

本文提出了一种结合显著性预测的方法,有效地提高了图像描述的质量。我们提出了一种生成递归神经网络结构,它可以通过一种注意机制聚焦于输入图像的不同区域。这种注意行为不同于以往的研究[56],它受到两种不同的注意路径的制约:前者专注于显著性模型预测的显著空间区域,而后者专注于上下文区域,这些区域也是根据显著性地图计算出来的。在五个公共图像字幕数据集(SALICON、COCO、Flickr8k、Flickr30k和PASCAL-50S)上的实验结果表明,我们的解决方案能够正确地利用显著性线索。此外,我们还表明,这样做不会丢失生成的标题的关键属性,例如它们的多样性和词汇表大小。通过观察两条注意路径的状态,我们最终表明,训练后的模型在标题生成过程中学会了同时关注显著区域和上下文区域,并且网络生成的注意焦点与生成的单词逐步有效地对应。

总之,我们的贡献如下。首先,我们证明显著性可以增强图像描述,因为它提供了什么是显著的和什么是上下文的指示。其次,我们提出了一个模型,将经典的机器注意方法扩展为包含两条注意路径,一条用于显著区域,另一条用于上下文。这两条路径在标题生成过程中协同工作,显示出根据自动度量生成更好的标题,而不会丢失多样性和字典的大小。第三,我们定性地证明了训练后的模型学会了以适当的方式关注显著区域和上下文区域。

2 RELATED WORK

在这一部分,我们回顾了与显著性预测和图像字幕相关的文献。我们还报道了最近一些研究显著性对生成自然语言描述的贡献的工作。

2.1 Visual saliency prediction

显著性预测已经被计算机视觉界广泛研究,在过去的几年里,由于深度神经网络的广泛应用,显著性预测已经取得了相当大的进步[8,9,18,20,28,30,39]。然而,在深度学习出现之前,已经提出了很多不同的模型,几乎每一个模型都受到了Itti和Koch[19]开创性工作的启发,其中,将从输入图像中提取的多尺度低层特征进行线性组合,然后采用动态神经网络和赢家通吃策略进行处理。Harel等人还探讨了适当结合不同低级特征的相同思想。[15] 他定义了各种图像地图上的马尔可夫链,并将地图位置上的均衡分布视为一种激活。除了利用低级特征外,一些显著性模型还包含了高级概念,如面孔、人物和文本[4、23、61]。事实上,Judd等人[23]强调,当人类看图像时,他们的目光不仅被自下而上的注意力典型的低级线索所吸引,而且也被自上而下的图像语义所吸引。为此,他们提出了一种将低层和中层特征有效结合的模型,并利用人脸和人的检测器捕获重要的高层概念。尽管如此,所有这些技术都未能有效地捕获有助于定义图像视觉显著性的各种原因,并且随着深度学习的到来,研究人员开发了能够克服手工模型的许多限制的数据驱动架构。

由于缺乏足够大的训练数据集,首次尝试通过神经网络计算显著性映射[30,35,54]。Vig等人[54]提出了第一种用于显著性的深层架构,该架构仅由三个卷积层组成。之后,Kümmer等人[30,31]基于两个流行的卷积网络(AlexNet[27]和VGG-19[46])建立了他们的模型,获得了足够的结果,尽管网络参数没有在显著性数据集上进行微调。Liu等人[35]试图通过在以固定和非固定位置为中心的图像块上训练其模型来克服缺乏大规模数据集的问题,从而增加训练数据的数量。

随着SALICON数据集[21]的到来,它仍然是用于显著性预测的大型公共数据集,一些深层架构已经超越了以前的方法,带来了一致的性能提升。所有这些结构的出发点都是一个预先训练的卷积神经网络(CNN),例如VGG-16[46]、GoogleNet[50]和ResNet[16],其中添加了不同的面向显著性的组件[8,9],以及不同的训练策略[9,18,20]。

特别是,Huang等人[18]通过在两种不同的图像尺度上应用三种标准CNN,对它们进行了比较。此外,他们还首次使用显著性评估指标作为损失函数来训练网络。Jetley等人[20]引入了一个模型,该模型将显著图表示为广义Bernoulli分布。此外,他们使用不同的损失函数来训练他们的网络,这些损失函数将softmax激活函数与用于计算概率分布之间距离的度量配对。Tavakoli等人[51]研究了图像间的相似性,使用极端学习者的集合来估计给定图像的显著性,每个极端学习者都在与输入图像相似的图像上训练。相反,Kruthiventi等人[28]提出了一个统一的框架来预测眼睛注视和突出物体。

Pan等人[38]最近提出了另一种显著性预测模型,他在生成性对抗网络大量传播之后,利用对抗性例子训练了他们的模型。具体来说,它们的体系结构由两个代理组成:一个负责生成给定图像的显著性映射的生成器,一个在生成的显著性映射和实际显著性映射之间执行二值分类任务的鉴别器。相反,Liu等人[34]提出了一个模型,用于学习长期的空间交互和场景上下文调制,以推断图像显著性,显示出有希望的结果,这也要归功于使用强大的ResNet-50架构[16]。

与所有这些作品相比,我们提出了两种不同的深度显著性架构。第一个称为ML-Net[8],它有效地结合了来自CNN不同层次的特征,并将学习到的权重矩阵应用到预测的显著性图中,从而考虑到人眼注视中存在的中心偏差。第二个被称为SAM[9],它结合了神经注意机制,集中在输入图像的最显著区域。该模型的核心部分是一个Attentive Convolutional LSTM,它迭代地细化预测的显著性映射。此外,为了解决人类中心偏差问题,该网络能够在没有预先定义信息的情况下学习多个高斯先验图。由于该模型达到了最先进的性能,处于不同显著性预测基准的顶端,因此我们将其应用于本研究。

2.2 Image captioning

近年来,计算机视觉研究者利用递归神经网络对图像和视频进行自动描述,给出了一种视觉内容的矢量化描述,它可以自然地处理文字序列[3,24,55]。在深度学习模型之前,句子的生成主要是通过识别视觉概念、对象和属性来完成的,然后使用预定义的模板将这些概念、对象和属性组合成句子[29、57、58]。另一种策略是将图像字幕设置为检索问题,将训练集中最接近的注释语句转移到测试图像中,或者将训练字幕分割成多个部分,然后重新组合以形成新的句子[11、17、37、47]。显然,这些方法限制了可能输出的多样性,不能满足自然语言的丰富性。事实上,最近的字幕模型把句子的生成看作是一个机器翻译问题,在这个问题中,来自卷积网络的图像的视觉表示通过递归神经网络翻译成语言对应的图像。

基于这一思想的第一个模型之一是Karpathy等人[24]提出的,其中句子片段通过多模态嵌入与它们描述的视觉区域对齐。然后,将这些对应关系作为多模态递归神经网络的训练数据,学习生成对应的句子。相反,Vinyals等人[55]开发了一个端到端的模型,该模型被训练为在给定输入图像的情况下最大化目标句子的可能性。Xu等人[56]介绍了一种图像字幕的方法,该方法结合了一种机器注意的形式,通过这种方式,生成的LSTM可以在生成相应字幕的同时聚焦于图像的不同区域。他们提出了两个不同版本的模型:第一个称为“软注意”的模型使用标准的反向传播技术以确定性的方式进行训练,而第二个称为“硬注意”的模型则通过强化学习范式通过最大化变分下界进行训练。

Johnson等人[22]讨论了密集字幕的任务,它在自然语言中共同定位和描述显著的图像区域。该任务包括当描述由单个单词组成时的目标检测问题和当一个预测区域覆盖整个图像时的图像字幕显示任务。You等人[59]提出了一种语义注意模型,其中,给定一幅图像,卷积神经网络提取自上而下的视觉特征,同时检测诸如区域、对象和属性等视觉概念。图像特征和提取的视觉概念通过递归神经网络进行组合,最终生成图像标题。不同于以往的预测单个标题的作品,Krause等人[26]引入了描述图像的整个段落的生成。最后,Shetty等人[45]利用对抗性训练将字幕生成器的训练目标从再现地面真实字幕改为生成一组与人类生成的字幕不可区分的字幕。

在本文中,我们有兴趣证明在生成图像描述时使用显著性和上下文信息的重要性。我们的解决方案属于神经注意字幕结构的一类,在实验部分,我们将其与基于[56]中提出的软注意方法构建的标准注意模型进行比较。

2.3 Visual saliency and captioning

只有少数其他先前的作品研究了人眼注视对生成图像描述的贡献。探索这一思想的第一项工作是在[48]中提出的,它提出了一种神经注意字幕结构的扩展。特别是,提出的模型包含了人类的注视点(通过眼睛跟踪设备获得)而不是计算出的显著性地图来生成图像字幕。这种策略主要受眼睛注视和标题注释的双重需要。目前,只有SALICON数据集[21]是Microsoft COCO数据集[33]的一个子集,它既有人类描述,也有显著性图。

相反,Ramanishka等人[41]引入了一种编码器-解码器字幕模型,在该模型中,没有显式注意层的预测字幕和任意查询语句生成时空热图。他们将这些热图称为显著图,尽管它们是网络的内部表示,与人类的注意力无关。实验表明,尽管计算开销较低,但与标准字幕注意模型相比,性能上的增益是不一致的。

在[52]中提出了一种不同的方法,探索人类或模型的图像描述是否与显著性一致,以及显著性是否有利于图像字幕。为此,他们提出了一种利用移动滑动窗口和均值池作为聚合策略,利用相应的显著性图增强图像特征的字幕模型。与无显著性基线的比较没有显示出显著的改善(特别是在微软COCO数据集上)。

在这篇文章中,我们的目标是通过在一个神经注意的字幕结构中直接结合显著性图来增强图像字幕。与以往利用人类注视点的模型不同,我们得到了一个更通用的体系结构,它可以使用任何图像字幕数据集进行潜在的训练,并且可以预测任何输入图像的字幕。在我们的模型中,机器注意过程被分成两个不同的和不相关的路径,一个用于显著区域,另一个用于上下文。我们通过大量的实验证明,显著性和上下文的结合可以增强不同艺术数据集上的图像字幕。

3 WHAT IS HIT BY SALIENCY?

人类的凝视既被诸如颜色、对比度和纹理之类的低级暗示所吸引,也被诸如面孔和文本之类的高级概念所吸引[6,23]。由于使用了深度网络和大规模数据集,目前最先进的显著性预测方法能够有效地融合所有这些因素,并预测非常接近人眼注视获得的显著性地图[9]。在这一部分中,我们通过联合分析显著性和语义分割图,定性地研究了显著性模型实际击中或忽略了图像的哪些部分。这将激发使用显著性预测作为字幕模型的附加条件的需求。

为了计算显著性地图,我们采用了[9]中的方法,该方法在麻省理工学院显著性[5]和显著性数据集[21]等流行显著性基准上显示了良好的结果,并在2017年赢得了LSUN挑战赛。无论如何,值得一提的是,本节的定性结论可以应用于任何最先进的显著性模型。

由于语义分割算法并不总是完全准确的,因此我们对三个语义分割数据集进行了分析,其中人类注释者对区域进行了分割:Pascal-Context [36],Cityscapes [7]和Look in Person(LIP)[ 13]数据集。第一个包含没有特定目标的自然图像,而其他两个分别集中在城市街道和人体部位。特别是,Pascal-Context 为Pascal VOC 2010数据集[10]提供了附加注释,其中包含10103个训练和验证图像以及9637个测试图像。通过提供整个场景的注释,它超越了最初的Pascal语义分割任务,并且通过使用400多个不同的标签来注释图像。相反,Cityscapes数据集由记录在来自50个不同城市的街道场景中的一组视频序列组成。它为5000帧提供高质量的像素级注释,为20000帧提供粗略注释。该数据集使用30种特定于街道的类别(例如汽车,道路,交通标志等)进行注释。最后,LIP数据集专注于人的语义细分,并提供了50,000张带有19个语义人的部分标签的图像。图像包含从Microsoft COCO数据集[33]中裁剪出来的人物实例,并分别在训练,验证和测试集中分为30462、10000和10000张图像。对于我们的分析,我们仅考虑Pascal-Context和LIP数据集的训练图像和验证图像,以及Cityscapes数据集的5,000像素级带注释帧。对于某些样本图像,图1显示了三个数据集上的预测显着性图和相应的语义分段。

在这里插入图片描述

图1。我们的模型[9]对Pascal-Context[36](第一行)、Cityscapes[7](第二行)和LIP[13](最后一行)的样本图像进行了地面真值语义分割和显著性预测。

我们首先研究每个数据集的最显著类和最不显著类。由于存在相对于图像总数出现次数较少的语义类,因此我们只考虑相关的语义类(即出现次数至少为N次的类)。由于数据集的大小不同,我们将Pascal-Context和LIP数据集的N设置为500,将Cityscapes数据集的N设置为200。为了收集预测的显著性到达语义类的次数,我们通过对每个映射的像素值进行阈值化来对其进行二值化。低阈值导致具有扩张的显著区域的二值化地图,而高阈值在固定点周围创建小的显著区域。因此,我们使用两个不同的阈值来分析最显著类和最不显著类。我们选择一个接近0的阈值来为每个数据集找到最不显著的类,而选择一个接近255的值来代替最显著的类。

图2和图3显示了最显著类和最不显著类在显著性击中属于类的区域的次数百分比。可以看出,根据所考虑的数据集,有不同的分布。例如,对于帕斯卡语,最显著的类别是动物(如猫、狗和鸟)、人和车辆(如飞机和汽车),而最不显著的类别是天花板、地板和灯光。至于城市景观数据集,汽车绝对是最显著的一类,70%的时候受到显著性的影响。相反,其他所有的课程都达不到40%。在LIP数据集中,最显著的类都是上半身的人体部位,而最不显著的类都是下半身。正如所料,人们面临的是那些受显著性影响最大的事件,其绝对发生率接近90%。可以观察到场景中最重要或最可见的对象被显著性击中,而背景中的对象和图像的上下文本身通常被忽略。这就导致了这样一种假设,即在我们通常希望标题中包含上下文的情况下,显著区域和非显著区域对于生成图像的描述都很重要,并且显著性预测模型给出的显著区域和上下文之间的区别可以改进标题显示结果。

图2和图3根据显着性击中属于某个类的区域的次数百分比显示了最显着的类和最不显着的类。可以看出,根据所考虑的数据集有不同的分布。例如,对于Pascal-Context,最显着的类别是动物(例如猫,狗和鸟),人和车辆(例如飞机和汽车),而最不显着的类别是天花板,地板和灯光。对于Cityscapes数据集,汽车绝对是最显着的类别,其显着性达到70%的次数。相反,所有其他类别均未达到40%。在LIP数据集上,最显着的类别是上半身的所有人体部位,而最不显着的类别都是在下半身。不出所料,人脸是受到显着性影响最大的人,绝对发生率接近90%。作为一般模式,可以观察到场景中最重要或最明显的对象被显着性击中,而背景中的对象以及图像的上下文本身通常被忽略。这导致一个假设:鉴于我们通常希望上下文包含在标题中,并且显着区域与上下文之间的区别由显着性给出,因此显着区域和非显着区域对于生成图像的描述都非常重要预测模型,可以改善字幕效果。

在这里插入图片描述

图2 Pascal-Context, Cityscapes 和LIP数据集最突出的类别

在这里插入图片描述

图3 Pascal-Context, Cityscapes 和LIP数据集上最不显著的类。

我们还研究了物体大小与其显著值之间的关系。在图4中,我们将对象大小和显著性值的联合分布绘制在三个数据集上,其中对象的大小简单地计算为由图像大小规范化的像素数。可以看到,大多数低显著性实例都很小;但是,高显著性值集中在小对象和大对象上。综上所述,一个物体的大小与其显著性之间并不总是成比例的,因此不能仅仅通过观察其大小来评估物体的重要性。在我们要处理的图像字幕场景中,较大的对象对应于卷积架构最后一层中的较大激活,而较小的对象对应于较小的激活。由于显著区域和非显著区域可以具有可比较的激活,在字幕的生成期间,由显著性预测模型给出的关于像素是否属于显著区域的监督可以是有益的。

在这里插入图片描述

图4 对象大小和显著性值的分布(彩色观看最佳)

4 SALIENCY AND CONTEXT AWARE ATTENTION

根据上一节的定性发现,我们开发了一个模型,其中利用显着性来增强图像字幕。 在此,将生成的递归神经网络逐步设置在显着性模型预测的显着空间区域上,并根据说明字幕生成过程中非显着区域的作用的上下文特征进行调节。 在下文中,我们描述了整体模型。 概述如图5所示。

在这里插入图片描述

图5 所述模型的概述。为突出区域和上下文区域构建了两种不同的注意路径,以帮助模型构建描述两个组件的字幕。

每个输入图像 I I 首先通过全卷积网络进行编码,该网络在空间网格 { a 1 a 2 a L } \{a_1,a_2,…,a_L\} 上提供一组高级特征,每个特征对应于图像的空间位置。同时,利用文[9]中的模型提取出输入图像的显著性映射,并对其进行降尺度以适应卷积特征的空间大小,从而得到显著区域的空间网格 { s 1 s 2 s L } \{s_1,s_2,…,s_L\} ,其中 s i [ 0 1 ] s_i∈[0,1] 。相应地,我们还定义了上下文区域的空间网格, { z 1 z 2 z L } \{z_1,z_2,…,z_L\} ,其中 z i = 1 s i z_i=1-s_i 。在该模型下,不同位置的视觉特征将根据其显著性值进行选择或抑制。

通过从LSTM层馈送和采样单词,逐个单词地生成标题,单词在每个时间步都取决于从输入图像中提取的特征和显着性图。 正式地,生成LSTM的行为由以下方程式驱动:

i t = σ ( W v i v ^ t + W w i w t + W h i h t 1 + b i ) (1) \mathbf{i}_{t}=\sigma\left(W_{v i} \hat{\mathbf{v}}_{t}+W_{w i} \mathbf{w}_{t}+W_{h i} \mathbf{h}_{t-1}+\mathbf{b}_{i}\right) \tag 1

f t = σ ( W v f v ^ t + W w f w t + W h f h t 1 + b f ) (2) \mathbf{f}_{t}=\sigma\left(W_{v f} \hat{\mathbf{v}}_{t}+W_{w f} \mathbf{w}_{t}+W_{h f} \mathbf{h}_{t-1}+\mathbf{b}_{f}\right) \tag 2

o t = σ ( W v o v ^ t + W w o w t + W h o h t 1 + b o ) (3) \mathbf{o}_{t}=\sigma\left(W_{v o} \hat{\mathbf{v}}_{t}+W_{w o} \mathbf{w}_{t}+W_{h o} \mathbf{h}_{t-1}+\mathbf{b}_{o}\right) \tag 3

g t = ϕ ( W v g v ^ t + W w g w t + W h g h t 1 + b g ) (4) \mathbf{g}_{t}=\phi\left(W_{v g} \hat{\mathbf{v}}_{t}+W_{w g} \mathbf{w}_{t}+W_{h g} \mathbf{h}_{t-1}+\mathbf{b}_{g}\right) \tag 4

c t = f t c t 1 + i t g t (5) \mathbf{c}_{t}=\mathbf{f}_{t} \odot \mathbf{c}_{t-1}+\mathbf{i}_{t} \odot \mathbf{g}_{t} \tag 5

h t = o t ϕ ( c t ) (6) \mathbf{h}_{t}=\mathbf{o}_{t} \odot \phi\left(\mathbf{c}_{t}\right) \tag 6

其中,在每个时间步, v ^ t \hat{v}_t 表示通过考虑显著区域 { s i } \{s_i\} 和上下文区域 { z i } \{z_i\} 的映射而从 I I 提取的视觉特征。 w t w_t 是输入字, h h c c 分别是LSTM的内部状态和存储单元。⊙表示元素的Hadamard积, σ σ 为sigmoid函数, Ψ Ψ 为双曲正切tanh, W W_* 为学习权矩阵, b b_* 为学习偏差向量。

为了给生成网络提供视觉特征,我们从机器注意文献[56]中获得灵感,并计算定长特征向量 v ^ t \hat{v}_t 作为具有时变权重 α t i α_{ti} 的空间特征 { a 1 a 2 a L } \{a_1,a_2,…,a_L\} 的线性组合,通过softmax算子在空间范围上规范化:

v ^ t = i = 1 L α t i a i (7) \hat{\mathbf{v}}_{t}=\sum_{i=1}^{L} \alpha_{t i} \mathbf{a}_{i} \tag 7

α t i = exp ( e t i ) k = 1 L exp ( e t k ) (8) \alpha_{t i}=\frac{\exp \left(e_{t i}\right)}{\sum_{k=1}^{L} \exp \left(e_{t k}\right)} \tag 8

在每个时间步,注意机制基于前一个LSTM状态选择图像的一个区域,并将其馈送给LSTM,从而使单词的生成取决于该特定区域,而不是由整个图像驱动。

理想情况下,我们希望权重 α t i α_{ti} 能够意识到位置 a i a_i 的显著性和上下文价值,并且以LSTM的当前状态为条件,LSTM的内部状态 h t h_t 可以很好地编码LSTM。这样,生成网络可以根据输入图像所属的显著区域或上下文区域以及当前生成状态,聚焦于输入图像的不同位置。当然,简单地将注意力权重与显著性值相乘会导致上下文丢失,这是字幕生成的基础。相反,我们将注意力权重 e t i e_{ti} 分成两个贡献,一个用于显著性,另一个用于上下文区域,并使用两个完全连接的网络来学习这两个贡献(图5)。在概念上,这相当于建立两个独立的注意路径,一个用于突出区域,另一个用于上下文区域,这些区域被合并以产生最终的注意。总的来说,模型遵循以下等式:

e t i = s i e t i s a l + z i e t i c t x (9) e_{t i}=s_{i} \cdot e_{t i}^{s a l}+z_{i} \cdot e_{t i}^{c t x} \tag 9

其中 e t i s a l e_{t i}^{s a l} e t i c t x e_{t i}^{c t x} 分别是显著区域和上下文区域的注意权重。显著性和上下文的注意权重计算如下:

e t i s a l = v e , s a l T ϕ ( W a e , s a l a i + W h e , s a l h t 1 ) (10) e_{t i}^{s a l}=v_{e, s a l}^{T} \cdot \phi\left(W_{a e, s a l} \cdot \mathbf{a}_{i}+W_{h e, s a l} \cdot \mathbf{h}_{t-1}\right) \tag {10}

e t i c t x = v e , c t x T ϕ ( W a e , c t x a i + W h e , c t x h t 1 ) (11) e_{t i}^{c t x}=v_{e, c t x}^{T} \cdot \phi\left(W_{a e, c t x} \cdot \mathbf{a}_{i}+W_{h e, c t x} \cdot \mathbf{h}_{t-1}\right) \tag{11}

注意,我们的模型学习了显著区域和上下文区域的不同权重,并将它们组合成一个最终的注意图,其中显著区域和非显著区域的贡献合并在一起。类似于经典的软注意方法[56],所提出的生成LSTM可以聚焦于图像的每个区域,但是注意过程意识到每个位置的显著性,因此对显著区域和上下文区域的聚焦由显著性预测器的输出驱动。

4.1 Sentence generation

用一个与词汇表大小相等的one-hot向量对单词进行编码,然后通过学习到的线性变换将其投影到嵌入空间中。由于句子有不同的长度,它们还用特殊的字符串开始和字符串结束标记来标记,以使模型知道特定句子的开始和结束。

给定一个用一个热向量编码的图像和句子 ( y 0 y 1 y T ) (y_0,y_1,…,y_T) ,生成的LSTM被一步一步地限制在标题的前 t t 个单词上,并被训练生成标题的下一个单词。我们优化的目标函数是序列上正确单词的对数似然性:

max w t = 1 T log Pr ( y t v ^ t , y t 1 , y t 2 , , y 0 ) (12) \max _{\mathbf{w}} \sum_{t=1}^{T} \log \operatorname{Pr}\left(\mathbf{y}_{t} | \hat{\mathbf{v}}_{t}, \mathbf{y}_{t-1}, \mathbf{y}_{t-2}, \ldots, \mathbf{y}_{0}\right) \tag {12}

其中 w w 是模型的所有参数。单词的概率通过应用于LSTM输出的softmax层建模。为了降低维数,使用线性嵌入变换将一个one-hot向量投影到LSTM的输入空间,并将LSTM的输出投影到字典空间。

Pr ( y t v ^ t , y t 1 , y t 2 , , y 0 ) exp ( y t T W p h t ) (13) \operatorname{Pr}\left(\mathbf{y}_{t} | \hat{\mathbf{v}}_{t}, \mathbf{y}_{t-1}, \mathbf{y}_{t-2}, \ldots, \mathbf{y}_{0}\right) \propto \exp \left(\mathbf{y}_{t}^{T} W_{p} \mathbf{h}_{t}\right) \tag{13}

其中 W p W_p 是用于将LSTM输出空间转换为字空间的矩阵, h t h_t 是LSTM的输出。

在测试时,LSTM被赋予一个字符串开始标记作为第一个时间步的输入,然后根据预测的分布对最可能出现的单词进行采样并作为下一个时间步的输入,直到字符串结束标记被预测为止。

5 EXPERIMENTAL EVALUATION

在这一部分中,我们进行了定性和定量实验,以验证所提出的模型对不同基线和其他显著性增强字幕方法的有效性。首先,我们描述用于评估我们的解决方案的数据集和度量,并提供实现细节。

5.1 Datasets and metrics

为了验证提出的显著性和上下文感知注意的有效性,我们对五个流行的图像字幕数据集进行了实验:SALICON[21]、Microsoft COCO[33]、Flickr8k[17]、Flickr30k[60]和PASCAL-50S[53]。

Microsoft COCO由12万多张图片组成,这些图片分为训练集和验证集,每个图片都有使用Amazon Mechanical Turk生成的至少五个句子。SALICON是这个任务的一个子集,它是为视觉显著性预测任务创建的。由于它的图片来自Microsoft COCO数据集,每个图片至少有五个标题可用。总的来说,它包含10000个训练图像,5000个验证图像和5000个测试图像,其中每个图像的眼睛注视是用鼠标移动模拟的。在我们的实验中,我们只对两个数据集使用训练集和验证集。Flickr8k和Flickr30k数据集分别由8000和30000个图像组成。每幅图片都有五个注释句子。在我们的实验中,我们随机为这两个数据集选择1000个验证图像和1000个测试图像。PASCAL-50S数据集为UIUC PASCAL语句提供了附加注释[42]。它由1000张来自PASCAL-VOC数据集的图片组成,每个图片都用50个人类书写的句子注释,而不是原始数据集中的5个。由于样本数量有限,为了与其他字幕显示方法进行公平的比较,我们首先在Microsoft COCO数据集上对模型进行预训练,然后在该数据集的图像上进行测试,而不需要进行特定的微调。

为了进行评估,我们使用了图像字幕中通常使用的四个自动指标:BLEU [40],ROUGEL [32],METEOR [2]和CIDEr [53]。 BLEU是n-gram之间精确度的一种修改形式,用于将候选翻译与多个参考翻译进行比较。我们使用 mono-grams、bi-grams、three-grams和four-grams组合的BLEU评估我们的预测。 ROUGEL在考虑序列n-gram最长同时出现的情况下计算F测度。取而代之的是,METEOR基于unigram精度和查全率的调和平均值,而查全率的加权高于精度。它还具有其他度量标准中未发现的一些功能,例如词干和同义词匹配以及标准的精确单词匹配。最后,CIDEr计算在生成的标题中找到的n-gram与在参考句子中找到的n-gram之间的平均余弦相似度,并使用TF-IDF对其加权。为确保公平评估,我们使用Microsoft COCO评估工具包1计算所有分数。

5.2 Implementation details

每幅图像都通过一个卷积网络进行编码,卷积网络计算出一堆高级特征。我们使用流行的ResNet-50[16],在ImageNet数据集[44]上训练,计算输入图像上的特征映射。特别地,ResNet-50由49个卷积层组成,分为5个卷积块和1个完全连接层。由于要保持空间维数,我们从最后一个卷积层提取特征映射,忽略了完全连接层。ResNet模型的输出是2048个通道的张量。为了限制特征映射的数量和学习参数的数量,我们将这个张量输入另一个卷积层,其中包含512个滤波器,核大小为1,然后是ReLU激活函数。与保持固定的ResNet-50的权重不同,最后一个卷积层的权重根据[12]初始化并在所考虑的数据集上微调。在LSTM中,在文[1]中提出的初始化之后,应用于输入的权重矩阵通过从0均值和 0.01 2 {0.01}^2 方差的高斯分布中采样每个元素来初始化,而应用于内部状态的权重矩阵则通过使用正交初始化来初始化。向量 v e s a l v_e^{sal} v e c t x v_e^{ctx} 以及所有偏置向量 b b_* 被初始化为零。

为了预测每个输入图像的显著性图,我们利用我们的显著性注意模型(SAM)[9],它能够根据不同的显著性基准预测精确的显著性图。然而,我们注意到,在使用其他最先进的显著性方法时,我们并不期望显著的性能变化。

如前所述,我们对五个不同的数据集进行了实验。对于SALICON数据集,由于其图像的大小都是480×640,所以我们保留了这些图像的原始大小,从而得到L=15×20=300。对于由不同大小的图像组成的所有其他数据集,我们将输入大小设置为480×480,得到L=15×15=225。由于显著性映射是在所提出的显著性上下文注意模型中开发的,因此我们将显著性映射的大小调整为15×20,而对于所有其他数据集,我们将其大小调整为15×15。

所有实验都是通过使用Adam优化器[25]和Nestorov动量[49]进行的,初始学习率为0.001,批量大小为64。隐藏状态维度设置为1024,嵌入大小设置为512。对于所有数据集,我们选择的词汇表大小等于在训练和验证标题中出现至少5次的单词数。

5.3 Quantitative results and comparisons with baselines

为了评估我们的方法的性能,并研究其背后的假设,我们首先与经典的软注意方法进行比较,然后建立三个基线,在其中显著性被用于条件生成过程。

软注意[56]:通过软注意机制计算LSTM的视觉输入,以在图像的不同位置注意,而不考虑显著和非显著区域。一个单一的前馈网络负责产生注意值,用式14代替式9就可以得到注意值:

e t i = v e T ϕ ( W a e a i + W h e h t 1 ) (14) e_{t i}=v_{e}^{T} \cdot \phi\left(W_{a e} \cdot \mathbf{a}_{i}+W_{h e} \cdot \mathbf{h}_{t-1}\right) \tag{14}

这种方法等同于[56]中提出的方法,尽管有些实现细节不同。为了得到一个公平的评价,我们使用ResNet-50模型的激活来代替VGG-19模型,并且我们不包括双随机正则化技巧。由于这个原因,我们所报告的数值结果与原始文献中的数值结果不具有直接可比性(我们的数值通常高于原始数值)。

显着性池化:来自CNN的视觉特征在每个位置上乘以相应的显着性值,然后求和,而无需任何注意机制。 在这种情况下,LSTM的视觉输入与时间无关,并且显着区域比非显着区域具有更多的焦点。 与等式7相比,可以将其视为“软注意力”的一种变体,其中网络始终专注于显着区域。

v ^ t = v ^ = i = 1 L s i a i (15) \hat{\mathbf{v}}_{t}=\hat{\mathbf{v}}=\sum_{i=1}^{L} s_{i} \mathbf{a}_{i} \tag{15}

注意显著性:这是软注意方法的一个扩展,其中显著性用于调节每个位置的注意值。因此,注意机制的条件是以更高的概率关注显著区域,而忽略不显著区域。

e t i = s i v e T ϕ ( W a e a i + W h e h t 1 ) (16) e_{t i}=s_{i} \cdot v_{e}^{T} \cdot \phi\left(W_{a e} \cdot \mathbf{a}_{i}+W_{h e} \cdot \mathbf{h}_{t-1}\right) \tag{16}

注意显著性和语境(并权重共享):注意机制知道显著和语境区域,但用于计算显著和语境注意得分的权重是共享的,不包括 v T v^T 向量。注意,如果这些也被分享,这个基线就相当于软注意。

e t i = s i e t i s a l + ( 1 s i ) e t i c t x (17) e_{t i}=s_{i} \cdot e_{t i}^{s a l}+\left(1-s_{i}\right) \cdot e_{t i}^{c t x} \tag {17}

e t i s a l = v e , s a l T ϕ ( W a e a i + W h e h t 1 ) (18) e_{t i}^{s a l}=v_{e, s a l}^{T} \cdot \phi\left(W_{a e} \cdot \mathbf{a}_{i}+W_{h e} \cdot \mathbf{h}_{t-1}\right) \tag {18}

e t i c t x = v e , c t x T ϕ ( W a e a i + W h e h t 1 ) (19) e_{t i}^{c t x}=v_{e, c t x}^{T} \cdot \phi\left(W_{a e} \cdot \mathbf{a}_{i}+W_{h e} \cdot \mathbf{h}_{t-1}\right) \tag {19}

我们还可以直接注意到,我们提出的方法相当于最后一个基线,没有权重共享。

在表1中,我们首先比较我们的方法相对于软注意方法的性能,以评估提案相对于已发表的技术状态的优越性能。我们报告所有数据集的结果,包括验证集和测试集,以及第5.1节中描述的所有自动度量。可以看出,所提出的方法总是在很大程度上克服了软注意方法,从而在实验上证实了有两条独立的注意路径的好处,一条用于显著区域,另一条用于非显著区域,以及显著性作为字幕显示条件的作用。特别是,在METEOR metric上,相对改进的范围从PASCAL-50S上的 32.9 32.8 32.8 = 0.30 % \frac{32.9-32.8}{32.8}=0.30 \% 到Flickr8k验证集的 20.3 19.8 19.8 = 2.53 % \frac{20.3-19.8}{19.8}=2.53 \%

在这里插入图片描述

表1。图像字幕结果。与传统的机器注意机制相比,显著性和语境(显著性+语境注意)的制约促进了标题的生成。这里的“软注意”表示我们使用模型的相同视觉特征重新实现了[56]。

相反,在表2中,我们将我们的方法与包含显著性的三个基线进行比较。首先,可以观察到显著性集合基线的表现通常比软注意差,从而证明始终关注显著位置不足以获得良好的字幕效果。当插入注意时,就像在显著性注意基线中一样,数值结果要高一些,这要归功于时间依赖性注意,但离完整模型所达到的性能还有很大的差距。还可以注意到,尽管这个基线没有考虑上下文,但它有时比软注意模型(例如在SALICON的情况下,关于流星度量)获得更好的结果。最后,我们注意到,关注显著性和语境以及权重分担的基线比关注显著性要好,进一步证实了包含语境的好处。有两个完全分离的注意路径,比如在我们的模型中,无论如何都是重要的,正如最后一个基线相对于我们的方法的数值结果所证明的那样。

在这里插入图片描述

表2。与使用显著基线的图像字幕进行比较。虽然使用注意策略是有益的(参见显著性集中和显著性注意),显著性和上下文对字幕都很重要。对显著性和语境使用不同的注意路径也会提高表现(参见显著性+语境注意(权重共享)与显著性+语境注意)。

5.4 Comparisons with other saliency-boosted captioning models

我们还将与在图像描述生成过程中加入显着性的现有字幕模型进行比较。 特别是,我们将其与[48]中提出的利用人体固定点的模型进行了比较,与Tavakoli等人的工作[52]进行了比较,后者报告了Microsoft COCO和PASCAL-50S的实验,以及Ramanishka等人的提议。 [41]使用卷积激活作为显着性的代理。

表3显示了三个数据集在BLEU@4、METEOR、ROUGEL和CIDEr方面的结果。我们将我们的解与[52]中给出的模型的两个版本进行了比较。GBVS版本利用使用传统自底向上模型计算的显著性映射[15],而另一个版本包括从深卷积网络提取的显著性映射[51]。

在这里插入图片描述

Table 3. Comparison with existing saliency-boosted captioning models.

结果表明,本文提出的显著性和上下文注意模型能够克服其他方法在不同度量上的不足,从而确定了包含两条注意路径的策略。特别是在流星测量方面,我们在SALICON数据集上得到了4.57%的相对改进,在microsoftcoo上得到了5.53%的相对改进,在PASCAL-50上得到了8.94%的相对改进。

5.5 Analysis of generated captions

我们进一步收集由我们的方法和软注意模型生成的字幕的统计数据,以定量评估生成字幕的质量。首先,我们定义了三个度量标准来评估两个模型生成的标题语料库的词汇量以及它们与基本事实之间的差异:

  • 词汇量:在所有标题中生成的唯一单词数;
  • 新句子百分比:训练集中未出现的生成句子百分比;
  • 不同句子的百分比:两个模型描述不同的图像的百分比;

然后,我们通过以下两个指标来衡量两个模型中每个模型生成的标题集的多样性[45]:

  • Div-1:一组标题中唯一的Unigram数与同一组中单词数的比率。越高越多样化。
  • Div-2:一组标题中唯一双字图的数量与同一组中单词的数量之比。越高越多样化。

在表4中,我们比较了由我们的模型生成的标题集和由软注意基线生成的标题集。虽然我们的模型在SALICON、COCO和PASCAL-50S上的词汇量略有减少,但是两个模型生成的标题经常是不同的,从而证实了这两种方法学习到了不同的标题模式。此外,软注意方法的多样性和新颖句子的数量被完全保留。

在这里插入图片描述

表4。统计词汇大小和生成标题的多样性。在两个不同的机器注意路径(显著性+上下文注意)中包含显著性和上下文,相对于传统的机器注意方法(软注意),产生了不同的标题,同时保留了几乎相同的多样性统计。

5.6 Analysis of attentive states

在我们的模型中,位置的选择是基于显著注意路径和上下文注意路径之间的竞争(见公式9)。为了研究这两条路径是如何相互作用并有助于单词的生成,在图6中,我们报告了来自Microsoft COCO数据集的几个图像中,这两条路径之间注意权重的变化。具体来说,对于每个图像,我们报告每个时间步的 e t i s a l e^{sal}_{ti} e t i c t x e ^{ctx}_{ ti} 值的平均值,以及其显著性地图的可视化。有趣的是,模型如何能够正确地利用这两种注意路径来生成标题的不同部分,以及生成的单词在大多数情况下如何与关注区域对应。例如,在第一图像的情况下(“一组斑马在草地上吃草”),在生成由显著性捕获的对应于“一组斑马”的单词期间,显著性注意路径比上下文路径更活跃。相反,当模型必须描述上下文时(在草地上),显著注意路径相对于上下文注意路径具有较低的权重。所有报告的图像都可以观察到同样的情况;还可以注意到,生成的标题倾向于描述突出的对象和上下文,并且通常在上下文之前描述突出的部分,这也是最重要的部分。

在这里插入图片描述

图6。注意权重的例子随着标题的生成而在显著性和上下文之间发生变化(以颜色最为明显)。图片来自微软COCO数据集[33]。

5.7 Qualitative results

最后,在图7中,我们报告了从Microsoft COCO数据集中获取的图像的一些示例结果。对于每个图像,我们报告相应的显着性图,以及由我们的模型和“软注意力”基线与地面真相生成的字幕。可以看出,平均而言,由我们的模型生成的字幕与相应的图像和人工生成的字幕更加一致,并且,如在上一节中所观察到的,还描述了重要部分以及上下文。显着性和上下文的结合也有助于该模型避免由于幻觉而导致的故障,例如在第四幅图像的情况下,在该图像中,Soft Attention模型预测的远程控制未在图像中显示。我们的模型避免的其他失败案例包括重复单词(如第五张图片)和描述上下文失败(第一张图片)。我们推测,模型在字幕生成过程中学会了参加的两个单独的注意力路径的存在,比传统的机器注意力方法更有效地避免了此类故障。

在这里插入图片描述

Fig. 7. Example results on the Microsoft COCO dataset [33].

为完整起见,图8中报告了所建议模型的一些故障案例。大多数故障发生在图像的显著区域没有在相应的“地面真实”标题中描述时(例如在第一行中),从而导致性能损失。一些问题也出现在复杂的场景中(如在第四幅图像中)。然而,我们观察到,在这些情况下,软注意基线不能预测正确和完整的字幕。

在这里插入图片描述

Fig. 8. Failure cases on sample images of the Microsoft COCO dataset [33].

6 CONCLUSION

提出了一种新的图像字幕结构,该结构通过在显著性预测模型的输出上创建两条注意路径来扩展机器注意范式。第一个是突出区域,第二个是上下文区域:整个模型在标题生成过程中利用了这两条路径,根据需要更加重视突出区域或上下文区域。通过收集语义切分数据集的统计数据,研究了显著性对上下文的作用,同时利用标准的自动度量方法,通过评估生成语料库的多样性和字典大小,对大规模字幕数据集的字幕模型进行了评估。最后,我们研究了这两种注意路径的激活情况,并证明它们逐字对应于对突出物体或生成标题中上下文的关注;此外,我们定性地评估了我们的方法生成的标题相对于软注意生成的标题的优越性接近。虽然我们的重点是证明显著性对字幕的有效性,而不是依赖于不同提示的跳动字幕方法,但我们指出,我们的方法可以很容易地融入到这些架构中。

发布了88 篇原创文章 · 获赞 132 · 访问量 18万+

猜你喜欢

转载自blog.csdn.net/DumpDoctorWang/article/details/104863487