《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

来源:CVPR 2018

参考CSDN博客:

论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering​blog.csdn.net图标

一、Introduction

本文提出了联合bottom-up 和top down的注意力机制,对目标物体和图像其它显著区域施加注意力权重。论文解决了image caption以及VQA两个任务。

1.the bottom-up mechanism(Faster R-CNN):提取图像区域,每个图像区域由池化的卷积特征向量表示

2.the top-down mechanism:决定图像上特征向量的注意力权值

用Faster R-CNN方法进行目标检测

提取出的目标区域的mean-pooled convolutional feature定义为 \nu_{i}\nu_{i}

为了帮助学习更好的特征,添加了一个额外的训练输出来预测属性类(比如物体的颜色、材质等)

如上图中的“black”、“white”属性

通过把 \nu_{i}\nu_{i} 和一个可训练的ground-truth object class的embedding特征这进行concatenate,并把它送达到一个额外的输出层,输出层是每个属性类别的softmax分布

二、Captioning Model

两个LSTM模块:Language LSTM和Top-Down Attention LSTM

标准LSTM公式:

1.Top-Down Attention LSTM

top-down attention使用LSTM来确定image feature \nu_{i}\nu_{i} 的权重, 是soft attention机制。

top-down attention LSTM的输入为:

三个向量拼接

\alpha_{i,t}\alpha_{i,t} 为image feature \nu_{i}\nu_{i} 的权重, h_{t}^{1}h_{t}^{1} 为query,key为

应用注意力机制。

作为Language LSTM的输入

2.Language LSTM

3.Loss Function

cross entropy loss function

还用到了SCST中的强化学习方法来对CIDEr分数进行优化:

梯度可以被近似为:

三、VQA Model

VQA模型也同样使用的是 soft top-down attention机制,结构如图所示:

加权重后的图片特征与文本特征用gated hyperbolic tangent activation融合

猜你喜欢

转载自blog.csdn.net/qq_33373858/article/details/81509777