论文解读:A Focused Dynamic Attention Model for Visual Question Answering

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014248127/article/details/84843971

这是关于VQA问题的第四篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:A Focused Dynamic Attention Model for Visual Question Answering

1,主要思想:

Focused Dynamic Attention (FDA)模型: 通过问题的关键词,识别图像中重要的对象;并通过LSTM单元融合来自区域和全局特征的信息。 然后将这种问题驱动的表示与问题表示相结合,并将其输入到用于生成答案的推理单元中。

2,模型

在这里插入图片描述

a.问题特征:

采用LSTM对问题文本提取问题表达信息。

b.图像特征

采用预训练的Deep Residual Networks model获取图像信息。

c.Focused Dynamic Attention Mechanism(重要部分)

  • 在训练期间,我们使用真实对象边界框和标签。 在测试时,预先计算的边界框,并用对它们进行分类,以获得对象标签。
  • 首先: 对于每个图像对象,它使用word2vec单词嵌入来测量问题单词和对象标签之间的相似性。
  • 其次: 它选择相似度得分大于0.5的对象,并用预先训练的ResNet模型提取对象边界框的特征向量。
  • 再次: 按照问题单词顺序,把这些图像特征送入LSTM网络。
  • 最后: 向LSTM网络提供整个图像的特征向量,并使用得到的LSTM状态作为视觉特征表示

d.产生预测

采用element-wise multiplication融合两个向量,用全连接加softmax输出。

3,主要贡献:

  • 提出了FDA模型,用于vqa问题;

  • 将局部和全局上下文视觉特征与文本特征融合在一起

  • 在过个模型上对比了开放域和多项选择两个数据集

  • FDA可以减少噪声的影响:只考虑了重要的对象,其他没有对象的部分都丢掉了。并采用attention机制,找到与问题相关的对象。

猜你喜欢

转载自blog.csdn.net/u014248127/article/details/84843971