Multimodal Compact Bilinear Pooling（MCB）多模态紧凑双线性池 - 代码天地

Multimodal Compact Bilinear Pooling（MCB）多模态紧凑双线性池

其他 2021-01-30 02:00:14 阅读次数: 0

出自：Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

分别提取对应模态的特征：对图片利用pre-train的CNN提取图片高层特征，对于文本则提取word-embeding,并通过lstm解码后的特征；　　
利用上个步骤得到的两个模态特征，分别利用Count Sketch方法进行逼近(降维)，得到降维之后的特征；
将上述得到的特征分别进行FFT，将其变换至频域，并在频域作向量内积，然后将内积结果作FFT逆变换至时域空间；
后续步骤，对得到的时域特征作Signed Sqrt和L2 normalize;
利用得到的新特征作分类等一系列判别工作。　　
可以看到，上述融合过程核心工作在于：Count Sketch, FFT, iFFT等.

多模态紧凑双线性池通过将图像和文本随机投影到更高维的空间来近似的，然后通过使用快速傅里叶变换（FFT）空间中的元素积来有效地卷积这两个向量

1.对于开放式回答问题，使用两次MCB，一次用于预测空间注意力，一次用于预测答案

2.对于多项选择题回答，我们引入第三个MCB去关联编码答案和问题图像空间联系起来

因为外积的高维n²，需要一种将外积投影到低维空间，避免直接计算外积

使用the Count Sketch projection function

另外两个向量外积的计算草图可以表示成两个计算草图的卷积

*是卷积操作

卷积可以写成

是元素积

VQA:

注意力：

我们使用MCB池将视觉特征的切片与语言表示合并，

合并之后，我们使用两个卷积层来预测每个网格位置的注意力权重。

使用softmax来产生一个标准化的软注意图，使用注意力图对空间向量进行加权求和

问题编码：

猜你喜欢

转载自blog.csdn.net/weixin_41988545/article/details/112691642

Multimodal Compact Bilinear Pooling（MCB）多模态紧凑双线性池

VQA 之 Multimodal Compact Bilinear Pooling

多模态融合算法——Multimodal Compact Bilinear Pooling

【华为云技术分享】多模态融合算法——Multimodal Compact Bilinear Pooling

(compact) Bilinear Pooling, Confusion

【Bilinear Pooling】《A Novel DR Classfication Scheme based on Compact Bilinear Pooling CNN and GBDT》

双线性池化(Bilinear Pooling)与二阶池化(Second-order pooling)

【转载】 OpenCV ——双线性插值（Bilinear interpolation）

双线性插值(Bilinear Interpolation)

图像处理——双线性插值（Bilinear Interpolation）

图像双线性插值（Bilinear interpolation）

在pytorch中的双线性采样（Bilinear Sample）

双线性插值(Bilinear Interpol)原理及应用

双线性插值（Bilinear interpolation）原理推导

双线性插值法（Bilinear Interpolation）

多模态融合 Multimodal Fusion

线性插值，双线性插值Bilinear Interpolation算法

论文笔记：双线性模型《Bilinear CNN Models for Fine-Grained Visual Recognition》

深度学习图像处理：双线性CNN (Bilinear cnn)- 细粒度图像分类模型

最近邻插值（Nearest neighbour interpllation）与双线性插值（bilinear interpolation）

Python实现最近邻nearest、双线性bilinear、双三次bicubic插值

三十分钟理解：线性插值，双线性插值Bilinear Interpolation算法

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

【论文笔记】多模态融合（Multimodal Fusion）

Incomplete Multimodal Learning（不完整多模态学习）

【论文&模型讲解】多模态对话 Multimodal Dialogue Response Generation

多模态分析数据集（Multimodal Dataset）整理

论文阅读-Attention Bottlenecks for Multimodal Fusion（多模态特征融合）

论文阅读：multimodal remote sensing survey 遥感多模态综述

Bilinear Interpolation

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

集成学习——LightGBM原理理解

java复制pdf并且往pdf文件中添加内容

DRF的解析器和渲染器 DRF的解析器和渲染器

pytest以函数形式的测试用例

CSS3 边框

C语言编程经典案例，三种方法求水仙花数（附完整代码）

算法题（313）

css如何让背景透明，文字不透明

linux下网络程序遭遇SIGPIPE的解决（转）

用xposed Hook框架Hook 安卓apk的按钮Id

每日归档

更多

2025-04-13(999)

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)