VLM 系列——Object Recognition as Next Token Prediction——论文解读

一、概述

1、是什么

    结合了CLIP 的视觉编码器+语言模型Llama 的部分参数,将常见的图片描述任务转变为只输出属性,换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的top K属性(英文),用于开放域的图片Tag 场景。

2、亮点

    *对图像-标题(从原始标题中提取名词作为参考标签)对进行训练,比图像-问题-答案三元组更容易收集和注释。对于推理,生成文本片段作为标签而不是句子。

    *解码器具有不同的令token建模机制,不同标签的token独立,相同标签的token仍然是因果(后面的依赖前面),标签标记都以图像嵌入为条件。实现方式就是一个非因果注意掩码。

    *非因果掩蔽机制激发了一种新的采样方法,称为一次性采样,用于生成标签的文本token。同时对多个标签的标记进行并行抽样,并根据它们的概率对它们进行排序。这利用了transformer强大的并行化能力。

    *简单的策略来提高模型效率。从一个预训练的LLM开始,例如LLaMA,保留前六个transformer块以及最终输出层,删除中间的块。与完整的模型性能相匹配,推理速度快4.5倍。

PS

    *这里作者没有对比RAM 这类模型,可能作者认为他面向的是开放域。但是如果你的应用场景是可以提前知道想要的类别标记,那么完全可以去对比RAM++,即使RAM+

猜你喜欢

转载自blog.csdn.net/u012863603/article/details/135465039