论文笔记:A CLIP-Hitchhiker’s Guide to Long Video Retrieval

摘要

  本文的目标是将图文模型应用于长视频检索。最近的研究表明,通过采用CLIP,视频检索具有最先进的性能,有效地搭乘了视频任务的图文表示。然而,在学习时间聚合方面取得的成功有限,其性能优于平均池化由 CLIP 每帧提取的图像级表示。我们发现,通过查询评分的帧嵌入加权平均值的简单而有效的基线是比所有先前的时间建模尝试和均值池化的显着改进。通过这样做,我们提供了一个改进的基准,以供其他人进行比较,并在一套长视频检索基准上演示这一简单基准的最新性能。

1 介绍

  预先训练的视觉语言模型正变得越来越普遍,因为它们在一系列下游任务中的表现令人印象深刻,而且几乎没有额外的训练数据。这些模型在感知任务上的表现接近人类水平,包括图像分类[46]、图像检索[27],甚至目标检测[17,25]。剩下的一个主要研究问题是成功地训练视觉语言模型并将其应用于需要更高水平认知推理的任务。一个这样的领域,也是这项工作的重点,是长形式视频理解及其日益增长的研究主体[26,56-58,66]。

  机器可以解析长篇视频,理解叙事和抽象概念,例如一部描述两个朋友闹翻并在多年后弥补的电影,是迈向更高层次认知推理的一步。然而,与大规模的语言模型和任务相比,这一领域的进展并不那么富有成效[9,13]。到目前为止,视觉语言模型在分析短视频片段方面被证明是有效的,当对视频分类[11,54,67]、文本到视频检索[15,37,61]和视频问题回答[19,62]等任务进行微调时,达到了最先进的水平。

  虽然最近的工作已将预训练的视频文本编码器用于下游视频任务 [6、23、59、61],但当前文本到视频检索的最新技术采用纯图像文本表示,特别是 OpenAI 的 CLIP [46] – 我们恰当地称之为 CLIP-hitchhiking。与视频文本相比,这在很大程度上可以归因于图像文本数据集 [27, 46] 的规模扩大了几个数量级。(因为图像数据集的扩大,所以CLIP才能有这样的效果,采用图文的预训练,用于下游的视频文本)。将这些最初为图像数据训练的模型适应视频任务仍然是一个悬而未决的问题,也是一个不断增长的研究领域。特别值得注意的是涉及长视频的任务,通常具有更少量的训练数据、更高程度的时间结构和帧之间的变化。最近的工作提出了在 CLIP 表示之上学习时间聚合层 [15, 37, 54];但是,其性能与简单地取视频中所有帧的图像表示的平均值相当,甚至更差。对于持续几分钟或更长时间的长视频,有趣的事件可能只持续几秒钟。在这种情况下,Mean-pooling显然是次优的。

  我们在本文中解决了这一限制。原因是长视频可能包含许多冗余帧,例如学生学习数学问题的长视频,以及偶尔包含大量信息的帧,例如该学生解决问题并提出的几秒钟的镜头他们兴奋地握拳:我们展示了预测每个帧的相关性并使用这些分数来执行帧嵌入的简单加权平均值优于所有更复杂的时间建模尝试,并实现了最先进的文本到视频在 ActivityNet Captions [30]、MSR-VTT [60] 和 Condensed Movies [5] 上进行检索。我们研究了三种计算帧相关性分数的方法
(1)查询评分,最简单的没有学习参数,使用文本查询的帧级相似性;
(2)自注意力评分,一种以帧嵌入为输入并输出每帧分数的序列变换器,仅以视频信息为条件;
(3) 联合注意力评分,与 (2) 具有相同的设置,但另外将文本查询嵌入附加到序列的末尾,从而以查询为条件。


  我们展示了使用 CLIP 在 Charades 数据集 [49] 上进行长视频分类的简单基线方法的改进。我们提出的方法作为mean-pooling的改进基线,可以与其他方法进行比较,尤其是那些在 CLIP 之上提出聚合方法的方法。我们进一步深入了解了这个简单基线有效性背后的原因,即(i)帧嵌入的平均值被映射到嵌入空间中的全新位置,以及(ii)性能对具有不同数据量的数据集的影响。

2 相关工作

我们简要概述了有关视觉文本表示学习、视频文本检索和长视频表示学习的相关文献。

Visual-text representation learning.

3 Temporal Aggregation of Image-Text Representations(图像-文本表示的时间聚合)

我们考虑从一组视频-文本对 (V, T) 中学习联合文本-视频表示的问题,其中 V 是 K 帧的视频,T 是描述视频的相应文本。具体地,我们考虑为文本T ∈ R d R^d Rd和视频的每一帧 V = [ I ( 1 ) , I ( 2 ) , . . . , I ( K ) ] ∈ R K × d V = [I^{(1)},I^{(2)},...,I^{(K)}] ∈ R^{K×d} V=[I(1)I(2)...I(K)]RK×d,经由预先训练的图像-文本模型,例如CLIP [46]。(先用预训练模型提取特征)我们的目标是找到一种聚合方法φ,它将帧表示组合成单个视频级表示 V ˉ = φ ( V ) ∈ R d \bar V =φ(V)∈R^d Vˉ=φ(V)Rd,使得 V ˉ \bar V Vˉ,T ∈ Rd的语义相似的实例彼此接近。

之前的工作已经用自注意力网络[18]、挤压和激励网络[15],甚至用查询[37]交叉变换层来实例化Φ。self-attention networks [18], squeeze- and-excitation networks [15], and even cross-transformer layers。

然而,已经表明,在许多基准测试中,简单地取每个帧嵌入的平均值可以获得与这些时间聚合尝试相当甚至更好的性能

视频时间建模的失败,尤其是长格式视频,是次优的。视频帧具有不同程度的相关性。受此启发,以及均值池的有效性,我们提出了对统一均值的直接但有效的改进,受弱监督矩定位 [42] 的启发,通过使用查询帧评分来执行帧嵌入的加权均值给定一系列相应的每帧相关性分数 S = [ s 1 , s 2 , . . . , s K ] ∈ R K [s_1, s_2, ..., s_K] ∈ R^K [s1,s2,...,sK]RK 其中 s i = I ( i ) ⋅ T s_i = I^{(i)} · T si=I(i)T我们可以计算整个视频的最终嵌入 V ˉ ∈ R d \bar V ∈ R^d VˉRd通过加权平均。

I I I是视频的每一帧,T是文本。S是相关分数的集合。通过计算每一帧和文本的相关系数。
在这里插入图片描述
其中 softmax 程度 τ 可以解释为朝向最高得分帧的超参数。对于非常小的 τ 值,这变成了一个 argmax 操作,其中最终的视频嵌入只是单个最相关的帧。同样,对于非常大的 τ 值,权重变得一致,有效地忽略了分数。正式地:
在这里插入图片描述
在实践中,我们发现一些中间范围提供了一个很好的平衡,既能更多地对相关帧进行加权,又能捕捉到视频中的全部时间性内容。我们在实证评估中探索了不同的τ值。

在下文中,我们将描述替代评分方法及其复杂性(第 3.1 节)、替代聚合方法(第 3.2 节),以及将这个问题构建到视频分类(第 3.3 节)。

3.1 Alternative Scoring Methods(替代评分方法)

虽然上述评分方法是无参数的,但除了 τ 的选择外,我们还研究了更多涉及的方法来预测每帧的分数。由于分数只能用于线性组合原始帧嵌入,因此模型在其功能上进行了严格的正则化,因此它允许使用大量的时间建模网络,但将其影响限制为仅对原始图像文本表示的线性组合

自我注意层可用于框架嵌入预测相关性得分,如图2所示。自注意力层的输出帧嵌入通过线性层 R d → R R^d→R RdR 馈送,以产生每帧的标量相关性分数。这种方法的优点在于帧分数 S 独立于查询,因此也独立于最终视频表示 V ˉ \bar V Vˉ 。这使检索复杂度保持在恒定时间 O(1)(参见表 1)。
在这里插入图片描述

图 2:用于预测视频中每个帧嵌入的相关性分数的不同评分方法,这些方法被 softmaxed 用于计算加权平均单个视频表示。
查询评分(a) 是最简单的评分方法,没有学习参数,通过每个帧嵌入与文本查询的相似性对每个帧进行评分。
自注意力评分 (b),在 K×512 帧嵌入上使用序列变换器,并通过线性层 R 512 → R 1 R^{512} → R^1 R512R1 馈送每个输出帧嵌入输出序列来对每一帧进行评分。
联合注意力评分 © 使用与 (b) 相同的方法,并在转换器的输入序列中添加了文本查询嵌入。

**联合注意力评分(Joint-Attention Scoring)**是上述方法的一个扩展,它附加了查询作为注意层的输入,并在查询和框架嵌入之间执行交叉注意和自我注意。虽然复杂度更高,但对特定于查询的视频进行调节是有意义的,否则帧相关性的定义可能会模棱两可。

自注意力层和联合注意力层对于时间建模来说都不是新的,但是我们的实例不同之处在于我们不使用注意力层的最终输出嵌入作为视频表示,而是将它们的输出 R d → R R^d → R RdR 映射到标量用于加权帧嵌入平均

Complexity.(复杂性) : 不同评分方法的空间和时间复杂度如表 1 所示,复杂度逐行递增。由于查询评分不需要可学习的参数(如统一均值),因此该方法可以应用于仅使用图像-文本嵌入的零镜头视频任务。查询条件帧聚合将检索复杂度增加到 O,因为加权平均值特定于每个查询 - 但是在实践中,我们发现 64 或 120 帧嵌入对于几分钟的长视频就足够了。每个视频存储这样一个数组只是空间的小幅增加,并且点积运算是微不足道的。

表1:v是检索集中的视频数量,k是每个视频的帧数,n是transformer中的层数。
在这里插入图片描述

  通过只对排名靠前的K个结果采用这种方法,并对全部排名采用与查询无关的聚合方法,可以降低查询聚合的检索复杂性[38]。首先对平均嵌入进行粗略的排名,而不进行特定于查询的聚合,然后可以使用更昂贵的查询评分方法。
  Temporal self-attention和 joint attention 与之前的工作时间建模尝试具有相同的检索和模型复杂性——只是增加了一个线性层来将嵌入映射到框架分数。

3.2 Alternative Aggregation Methods(其他聚合方法)

Hard Top-K. : 除了通过softmax得分获取加权平均值外,还可以获取Hard Top-K帧的平均值。这是[29]所采用的方法,用于选择应聚合哪些剪辑以进行视频分类。与软查询评分不同的是,除了τ值很低外,它仍然包含来自每个帧的一些信息(由于软操作),top-k完全将它们从聚合中移除,并平等地对待所有top-k帧。

Averaging per-frame logits rather than embeddings.(平均每帧 logits 而不是嵌入) : 类似地,不是对单个视频表示采用帧级嵌入的加权平均值,而是可以对相似度 logits 进行平均,以计算它们与文本的相似度。我们发现虽然这在零样本设置下的表现相当,但在微调时Hard Top-K表现更差——我们在第 4.4 节中展示了结果。

3.3 Video-to-text retrieval and video classification(视频-文本检索和视频分类)

虽然已经在视频-文本检索设置中描述了所讨论的方法,但是通过将分类任务公式化为视频-文本检索,它可以同样地应用于视频分类。唯一要注意的区别是复杂性分析,其中视频空间复杂性不再是一个问题,因为视频嵌入不需要存储用于文本检索。此外,查询条件聚合不是什么问题,因为文本查询的数量固定为视频动作标签的数量,而视频动作标签的数量往往很小。

4 Experiments

在本节中,我们首先介绍了下游数据集(第4.1节)和实验协议(第4.2节)。接下来,我们报告了所选择的一套长篇视频检索基准的最新结果(第4.3节)。然后,我们对简单的加权平均聚合的有效性进行了调查,并与其他方法进行了比较(第二节)。

4.1 Downstream Datasets

在这里插入图片描述
只有一个参数,没看懂(为聚合学习的参数数,聚合只用了一个参数)

我们在表2和表3中给出了MSR-VTT、ActivityNet和CondensedMovies上查询评分方法的文本到视频检索结果。我们在所有三个数据集上都实现了最先进的性能,显著优于以前使用具有数百万学习参数的剪辑主干的工作聚合方法。相反,我们的queryscoring方法只有一个参数。这些结果证明了加权平均嵌入的惊人有效性,以及当前更复杂的时间聚合方法的局限性。查询评分为所提出的时间聚合方法提供了一个改进的基线。

在这里插入图片描述

CLIP with query-scoring 实现了与ActionCLIP相同的性能,ActionCLIP使用时间建模,平均预测超过320个总帧,以及一组提示模板。

Query-scoring没有使用任何一种方法,但提供了类似的性能,并且对CLIP4CLIP-seqTransf和框架嵌入平均池基线进行了显著改进。

4.4

这表明图像级剪辑嵌入加权平均值的强基线是当前时间建模的最佳方法。不管是哪种评分方法,看似一致的提升表明,主要是通过将聚合Φ限制在图像嵌入的线性加权上而得到的好处。

Why are weighted-mean frame embeddings so effective?(为什么加权均值框架嵌入如此有效?)

a) 学习新的长视频文本表征的训练数据不足。我们发现,与更复杂和学习的时间聚合相比,平均加权嵌入的相对性能提升随着下游数据集规模的扩大而减少。这意味着如果有足够的长视频文本对,更复杂的建模尝试可以超过这个简单的基线。

b)帧嵌入的平均值捕获了不同的信息。鉴于CLIP嵌入是为单一图像-文本设置而训练的,令人惊讶的是,在许多内容大不相同的帧上取平均值仍然表现良好。例如,来自两个语义不同的帧的平均嵌入有可能映射到嵌入中一个语义不正确的新空间。为了研究这种情况是否会发生,我们同时训练了一个线性分类器和一个多层感知器(MLP)来对单帧嵌入和来自CMD中长视频的16帧采样的平均嵌入进行分类。我们发现,即使在零次嵌入的情况下,两者也能轻易地在这两者之间进行分类(表7)。这些结果表明,均值帧嵌入被映射到嵌入空间中全新的位置,与单帧嵌入不相干。 这是令人鼓舞的,因为它表明CLIP可以学会在512个嵌入中捕捉多帧信息–因此强基线出加权平均值表现如此之好。

在这里插入图片描述

c) 训练期间的查询评分提高了单帧的代表性。 微调后查询评分的性能提升可能归因于(i)通过忽略不相关的改进和/或(ii)测试时间的提高。(ii) 在训练过程中,通过对更多语义相关的框架进行对比性学习,改善图像-文本水平的表示。为了研究是否(ii)为真,我们在1帧设置中对CMD测试集检索进行评估,以评估单帧表示法(表7)。我们发现,查询评分性能为图像-文本表示法提供了明显的改进,表明这种方法在视频-文本学习过程中比均值池的基线有价值。

框架得分在语义上有意义吗? 通过帧得分获得的显著改善意味着高得分帧的某些语义相关性。为了研究这个问题,我们展示了对CMD未见过的视频进行查询评分的定性结果。在图4中,我们看到得分最高的帧是那些与测试有语义相似性的帧,例如包含摩托车的帧以及标题中人物名字的执照注册。此外,我们看到,得分最低的帧所包含的信息较少,与查询的相关性也较低。通过在训练过程中利用框架评分,约束性损失对这些不相关的框架的权重就会降低,否则就会损害表示。

5 结论

总之,我们提出了三种简单的方法来从图像-文本的联合表示中嵌入平均权重的帧,用于长视频的检索和分类-在有和没有查询信息的情况下,在这样做的过程中挑选出最显著的帧。我们的方法提供了一个强大的基线,超过了四个数据集的所有先前工作,包括尝试更复杂的时间建模。我们的实验揭示了这种高度受限的时间聚合所提供的好处以及对更复杂的时间建模所带来的挑战。今后的工作可以着眼于解决缺乏有效学习长格式视频表示所需的大规模数据的问题。这可以通过使用自我监督学习以及对长格式视频数据更稀少的文本监督来实现。

猜你喜欢

转载自blog.csdn.net/missgrass/article/details/125341868