Exploring Models and Data for Image Question Answering 论文翻译

这项工作旨在解决基于图像的问答(QA)与新模型和数据集的问题。 在我们的工作中,我们建议使用神经网络和视觉语义嵌入,而不需要诸如对象检测和图像分割之类的中间阶段来预测关于图像的简单问题的答案。 我们的模型比现有图像质量保证数据集上的唯一公布结果好1.8倍。 我们还提出了一种问题生成算法,该算法将广泛可用的图像描述转换为QA形式。 我们使用此算法生成一个数量级更大的数据集,具有更均匀分布的答案。 还提供了一套关于这个新数据集的基线结果

结合图像理解和自然语言交互是人工智能的宏伟梦想之一。 我们感兴趣的是通过问答任务共同学习图像和文本的问题。 最近,研究图像标题生成的研究人员[1,2,3,4,5,6,7,8,9,10]已经开发出强大的方法,可以从图像和文本输入中联合学习,从卷积神经模型等模型中形成更高级别的表示。 网络(CNN)训练有关物体识别,以及在大规模文本语料库上训练的文字嵌入。 图像质量保证涉及人与计算机之间的额外交互层。 这里的模型需要注意图像的细节,而不是模糊的描述。 该问题还结合了许多计算机视觉子问题,例如图像标记和对象检测。

在本文中,我们展示了我们对该问题的贡献:使用视觉语义嵌入来连接CNN和递归神经网络(RNN)的通用端到端QA模型,以及与一套其他模型的比较; 一种自动问题生成算法,可将描述语句转换为问题; 以及使用该算法生成的新QA数据集(COCO-QA),以及此新数据集上的大量基线结果。

286/5000

在这项工作中,我们假设答案只包含一个单词,这使我们可以将问题视为分类问题。 这也使得模型的评估更容易,更稳健,避免了困扰多字生成问题的棘手评估问题

3 方法

这里介绍的方法是双重的。 在模型方面,我们开发并应用各种形式的神经网络和视觉语义嵌入这一任务,在数据集方面,我们提出了从当前可用的图像描述数据集合成QA对的新方法

653/5000

近年来,递归神经网络(RNN)在自然语言处理(NLP)领域取得了一些成功。 长期短期记忆(LSTM)[19]是RNN的一种形式,由于其线性误差传播和乘法门控,它比标准RNN更容易训练。 我们的模型直接建立在LSTM句子模型之上,称为“VIS + LSTM”模型。 它将图像视为问题的一个词。 我们从Vinyals等人的标题生成工作中借用了将图像视为一个词的想法。[1]。 我们将这个新提出的模型与实验结果部分中的一套更简单的模型进行比较。

扫描二维码关注公众号,回复: 3969826 查看本文章
  1. 我们使用在ImageNet 2014 Challenge [21]上训练的19层牛津VGG Conv Net [20]的最后一个隐藏层作为我们的视觉嵌入。我们模型的CNN部分在训练期间保持冷冻状态。
  2. 我们尝试了几种不同的词嵌入模型:随机初始化嵌入,数据集特定的跳过 - 嵌入嵌入和通用跳过 - 嵌入嵌入模型[22]。单词嵌入与模型的其余部分一起训练
  3. 然后我们将图像看作是句子的第一个单词。与DeViSE类似[23],我们使用线性或仿射变换将4096个维度图像特征向量映射到与单词嵌入的维度匹配的300或500维向量。
  4. 我们可以选择将图像视为问题的最后一个字,也可以通过不同的权重矩阵,并可选地添加一个反向LSTM,它具有相同的内容,但是以后向顺序的方式操作。
  5. LSTM(s)输出在最后一个时间步进入softmax层以生成答案

3.2 问答制作

当前可以利用的DAQUAR 数据集包好大约1500张图片和7000个问题在37个普遍的物体类别,可能没能足够去训练大的复杂的网络模型。另外一个问题用当前的数据集是简单地猜测这个模型可能会产生很不错的正确率。

我们致力于创建拧一个数据集,为了产生一个更大的数量的QA对和一个更详细的问题的答案。收集人类的行为方式是一个重要的途径,另一个是合成问题基于图像的标签,我们相反的打算自动转化描述为QA的形式。在一般情况下,图片上提及到的目标描述比DAOUAR烦人人类产生的问题、合成的基于实际标签的QA。这样允许模型更多的依赖于未经加工的没有任何逻辑的图片理解。最后转变理解保留语言的多样性在最原始的描述中,结果会产生更过的类人问题而不是问题的标签。

 

作为一个开端,我们使用MS-COCO数据集,但是相同的方法可以应用到其他的图片描述数据集中,例如Flickr,SBU,或者甚至是因特网。

3.2.1 预处理和常见策略

我们使用斯坦福分析程序去获得最原始图像的语义结构。我们也利用这些策略去形成问题。

  1. 合成句子到简单的句子。

这里我们只考虑一个简单的例子:两个句子被加载到一起通过连接词。我们分离原来的句子,变成两个独立的句子。

  1.  模糊的限定词‘an’去定义限定词‘the’。
  2. 词移动限制

在英语中,问题倾向于以疑问词例如‘what’开头,这个算法需要去移动动词和以‘wh-’为成分的句子的开头。例如:‘A man is riding a horse’ 变成‘what is the man riding?’,在这项工作中,我们考虑下面两个简单的约束:(1)限制wh-在名词性短语中移动的原则。(2)我们的算法不会移动任何包含在子句中的‘wh’单词。

3.2.2 问题生成

问题生成仍然是一个开放式的话题。总的来说,我们采取一个比较保守的方法去生成问题试图产生高质量的问题。我们考虑到生成以下四种类型的问题:

1、物体问题:首先,我们考虑使用‘what’去问一个物体。这个包含用‘what’替代句子中一个真实的物体,然后转换句子的结构为了让‘what’出现在句子的开头。整个算法有一下的阶段:(1)将长句分割成简单的句子。(2)转变不确定的限定词去定义限定词。(3)贯穿句子,找到可能存在的答案,然后代替‘what’。在遍历所有的物体类型的问题的时候,我们忽略所有的借此短语(4)执行wh

-  的移动。为了与辨别一个可能存在的问题的答案,我们使用WordNet 和 NLTK 软包去获得名次分类。

  1. 数字问题:我们遵循和先前算法相似的步骤,除了辨别潜在答案的方法:我们提取数字从最原始的句子中。分割合成句子,改变限定词,然后wh-移动保持不变。
  2. 颜色问题:颜色问题更容易去生成。在仅仅需要定位颜色的形容词和名次附属的形容词。然后它简单的形成一个句子“what’s the color of the [object]?” 其中‘object’名词被真实的物体所代替。
  3. 位置问题:跟生成物体问题相似。遍历只会搜索以介词“in”开头的PP成分。我们同样添加规则与过滤以便于答案将更可能是地方、场景、或者是包含小物体的大物体。

3.2.3 后期处理

我们拒绝太稀有或者太频繁的答案在我们生成的数据集中。在 QA 拒绝操作之后,最常见的回答词的频率从24.98%减少到7.30%在COCO-QA数据集中。

4 实验结果

 4.1 数据集

表格一总结了COCO-QA的统计。应该注意的是,自从我们使用了QA 对拒绝处理,模型猜测表现的非常糟糕在COCO-QA数据集上。但是,COCO-QA数据集上的问题确实比DAOUAR上的问题更容易回答从人类的角度上来看。这个鼓励模型去开发显著的目标之间的关系而不是用尽一切地搜索所有可能存在的关系。COCO-QA 数据集可以在以下网址中下载:http://www.cs.toronto.edu/~mren/imageqa/data/cocoqa/

 

这里我们提供了一些简短的新数据集的统计资料,最大问题的长度是55,平均是9.65.最普遍的回答是“two”(3116,2.65%),“white”(2851,2.42%),“red”(2443,0.02%),最不普遍是“eagle”(25,0.02%),“tram”(25,0.02%),“sofa”(25,0.02%)。比较适中数量的答案是“bed”(867,0.737%)。在整个测试集合中(38948 QAs),9072(23.29%)与训练问题重叠,有7284(18.7%)重叠在问题-答案对。

4.2 模型细节

 1.VIS-LSTM:最开始的模型是有着降维的权重矩阵的CNN和LSTM。我们把它称作是“VIS+LSTM”在我们的表格和图形中。

 2. 2-VIS+BLSTM:第二个模型有两个图像特征的输入,在开始和结尾的句子中,有着不同的学习线性转换,同样也有着LSTM的朝着不同的方向前进。BOTH LSTM 输出到softmax 层在最后的一个时间步骤中。

 3. IMG+BOW :这个模型表现出多项式的逻辑回归基于图像的特征,在没有降维的情况下(4096维),通过总结所有学到的问题的词向量来获得词袋向量。

 4.FULL :最后,,FULL 模型是一个简单的以上三个模型的平均。

我们模型的细节放在以下的网址中:https://github.com/renmengye/imageqa-public

4.3基准线

 为了评估我们,我们模型的有效性,我们设计了一些基准线。

  1. GUESS:一个非常简单的基准线是预测基于问题类型的模型。例如,如果问题包含“how many”,这个模型将会输出“two”。在DAQUAR,模式是“table”,‘two’,‘white’,然而在coco-qa 数据集模式是“cat”,”two ”,”white”和“room”
  2. BOW:我们设计一系列的“看不见的”模型,只给出了问题而没有图片。其中一个看不见的模型表现逻辑回归在BOW向量中回归问题的答案。
  3. LSTM :另外一个“看不见的”模型我们实验的有着简单的额问题输入单词进入LSTM网络中。
  4. IMG: 我们同时也训练一个副本“deaf”模型,对每一种类型的问题,我们训练一个单独的CNN分类层(在训练的过程中将所有的低层次的网络冻结)。需要注意的是,这个模型需要知道问题的类型,以便于使他对于可以考虑到缩小范围空间的问题答案更有比较性。然而这个模型不知道任何的问题除了他的类型。
  5. IMG+PRIOR:这个基线结合一个物体先前的知识和“deaf model”的图像理解。例如一个问题问一只正在蓝蓝天上飞的白鸟的颜色可能输出的白而不是蓝仅仅是因为鸟的蓝色先验概率较低。我们将c表示为颜色,将o表示为感兴趣对象的类,将x表示为图片。假设o和x在颜色方面是有条件独立的,

这个可以被计算如果 p(c|x) 是CNN的逻辑回归的特征独立输出,我们很容易地用经验估计 p(o|c):: 。我们在这种经验分布上使用拉普拉斯平滑。

  1. KNN:在图片标题生成的任务中,Devlin et al 展示最近邻居基线方法表现的确实特别不错。为了看到我们的模型是否能记住我们的训练数据对于新的问题来说,我们在结果中包含了一个KNN基线。不像图像标题生成,我们使用词袋去代表从IMG+BOW中学到的东西,然后将它附加到CNN的图像特征中。我们使用欧式距离作为相似度度量;通过学习相似性度量,可以改善最近邻居结果。

4.4  性能标准

 为了评估模型的性能,我们使用简单答案准确性以及Wu-Palmer相似度(WUPS)度量。WUPS 评估  相似度在基于分类树的最长子序列的两个单词中,如果两个单词的相似度与一个阈值还低,一个零分将会给这个候选的答案。在Malinowski和Fritz ,我们采取所有的模型依据精确度,WUPS 0.9,和WUPS 0.0。

4.5 结果和分析

表格二中介了DAQUAR 和 COCO-QA 数据集上学习的结果。对于DAQUAR 来说,我们比较我们的结果with [32] and [14]。值得注意的是,我们的额DAQUAR 结果是数据集的一部分有着单一单词的答案。在我们的论文发表后,,Ma et al 在两个数据集中取得了更好的成果。

 从以上的结果来看我们看到我们的模型胜过基线和现存的途径对于问题的准确度来说和WUPS . 我们VIS + LSTM  和 Malinkowski et al 的循环神经网络模型取得有一点相似的性能在DAQUAR .一个简单的三种模型的平均促进增加性能1%~2%,胜过其他的模型。

我们很惊喜去看到IMG+BOW 模型是非常的强大在两个模型的表现上。我们模型的一个限制是我们不能够使用高达1096维的图像的特征在一个时间片中,所以降维可能会失去一些有用的信息。我们尝试给IMG+BOW 一个变暗的图像向量,但是它比VIS+LSTM表现的更差。

 

通过比较盲版的BOW和LSTM模型,我们假定在图像QA任务中特别是在这里的简单的问题学习中,交互顺序词可能没有自然语言任务一样重要。

 同样有趣的是,盲模型在DAQUAR 数据集上并没有损失多少,我们推测很可能IMAGENET 图片和室内的场景非常的不同,大部分是由家具组成的。可是,不盲的模型大幅度胜过盲的模型在COCO-qa 数据集上。这里有一些可能的原因:1、MS-COCO 上的物体与ImageNet上的物体更加类似。2、MS-COCO图像具有较少的对象,而室内场景具有相当大的混乱。(3)MS-COCO 有着更多的数据去训练更复杂的模型。

这里有许多有趣的例子,但是由于空间的限制,我们只能呈现一些在图一和图二。完整的结果在以下的网址中。http://www.cs.toronto.edu/~mren/imageqa/results/ 对于一些图片,我们添加一些额外的问题,这些可以更深入地了解模型对图像和问题信息的表示,帮助说明我们的模型可能意外得到正确的结果的问题。括号代表的是各自模型在softmax层上的信任度。

模型的选择:我们并没有发现使用不同的词向量在最后的分类中有重大的影响。我们观察到微调单词嵌入会带来更好的性能,并将CNN隐藏图像特征归一化为零均值和单位方差有助于缩短训练时间。双向的LSTM模型可以将结果推向新的高度。

物体问题:因为最原始的CNN网络实在ImageNet挑战赛上训练的,IMG+BOW 模型非常显著地得益于他的单个物体识别能力。然而,具有挑战性的部分是考虑多个对象之间的空间关系并关注图像的细节,我们的模型仅仅做一个适度的、可接受的工作在这个方面。例子在第一张图和第二张图。有时候一个模型可能 不能做一个正确的决定,但是输出一个最显著的物体,然而有时候盲的模型可以仅仅基于这个问题猜测出这个对象(例如椅子应该在桌子的旁边)尽管如此,与IMG模型相比,FULL模型将准确度提高了50%,IMG模型显示了纯对象分类和图像问答之间的差异。

计算:在DAQUAR,我们不能够任何的计算能力优势用iMG+BOW模型 ,对比于盲的模型VIS+LSTM也没有任何的计算优势。在COCO=QA 数据集上,我们可以观测到计算能力在有着单一物体的非常清晰的图像中。这些模型有时最多可以计算五到六个。可是,正如图三的第二张图片所展示的那样,能力相当弱,因为当存在不同的对象类型时它们不能正确计数。计数任务有很大的改进空间,实际上这可能是一个单独的计算机视觉问题。

 

颜色:在COCO-QA中,IMG + BOW和VIS + LSTM在彩色类型问题上对盲人有明显的胜利。我们进一步发现,这些模型不仅能够识别图像的主色,而且有时将不同的颜色与不同的对象相关联,如图3的第一张图所示。可是他们仍然在一些简单的例子中失败了。

添加先验知识可以在颜色和数字问题的准确性方面立即获得IMG模型。IMG + PRIOR和IMG + BOW之间的差距显示了CNN图像表示中的一些局部颜色关联能力。

 

5 总结和当前的方向

在本文中,我们考虑图像QA问题并呈现我们的端到端神经网络模型。我们的图像呈现了合理的问题理解和比较粗糙的图像理解,但它在一些场合仍然比较简单。当循环当循环神经网络已经变成一个流行的选择在学习图像和文字方面,我们呈现一个 bag-of-words  可以表现一样好,借用了图像标题生成框架。我们提出了一套更完整的基线,可以为开发更复杂的端到端图像问答系统提供潜在的洞察力。由于当前可用的数据集不够大,我们开发了一种算法,可帮助我们从图像描述中收集大规模图像QA数据集。我们的问题生成算法可以扩展到许多图像描述数据集,并且可以自动化而无需大量的人力。我们希望新数据集的发布将在未来鼓励更多数据驱动的方法来解决这个问题。

图像问题回答是一个相当新的研究课题,我们在这里提出的方法有许多局限性。首先,我们的模型只是回答分类器。理想情况下,我们希望允许更长的答案,这将涉及一些复杂的文本生成模型或结构化输出。但这需要一个自动的自由形式答案评估指标。其次,我们只关注有限的问题领域。然而,这一有限的问题范围使我们能够更深入地研究结果。最后,也难以解释为什么模型会输出一定的答案。通过比较我们的模型和一些基线,我们可以粗略地推断出他们是否理解图像。视觉注意是另一个未来方向,它既可以改善结果(基于最近图像字幕的成功[8]),也可以通过检查每个时间步的注意力输出来帮助解释模型预测。

 

猜你喜欢

转载自blog.csdn.net/woaixuexihhh/article/details/82142865