出自:Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
- 分别提取对应模态的特征:对图片利用pre-train的CNN提取图片高层特征,对于文本则提取word-embeding,并通过lstm解码后的特征;
- 利用上个步骤得到的两个模态特征,分别利用Count Sketch方法进行逼近(降维),得到降维之后的特征;
- 将上述得到的特征分别进行FFT,将其变换至频域,并在频域作向量内积,然后将内积结果作FFT逆变换至时域空间;
- 后续步骤,对得到的时域特征作Signed Sqrt和L2 normalize;
- 利用得到的新特征作分类等一系列判别工作。
可以看到,上述融合过程核心工作在于:Count Sketch, FFT, iFFT等.
多模态紧凑双线性池通过将图像和文本随机投影到更高维的空间来近似的,然后通过使用快速傅里叶变换(FFT)空间中的元素积来有效地卷积这两个向量
1.对于开放式回答问题,使用两次MCB,一次用于预测空间注意力,一次用于预测答案
2.对于多项选择题回答,我们引入第三个MCB去关联编码答案和问题图像空间联系起来
因为外积的高维n²,需要一种将外积投影到低维空间,避免直接计算外积
使用the Count Sketch projection function
另外两个向量外积的计算草图可以表示成两个计算草图的卷积
*是卷积操作
卷积可以写成
是元素积
VQA:
注意力:
我们使用MCB池将视觉特征的切片与语言表示合并,
合并之后,我们使用两个卷积层来预测每个网格位置的注意力权重。
使用softmax来产生一个标准化的软注意图,使用注意力图对空间向量进行加权求和