【文献25/04/01】From Show to Tell: A Survey on Deep Learning-Based Image Captioning

本研究旨在提供图像描述方法的全面概述，从视觉编码和文本生成到训练策略、数据集和评估指标。在这方面，我们定量比较了许多相关的最先进方法，以识别架构和训练策略中最具影响力的技术创新。此外，还讨论了问题的许多变体及其开放挑战。本研究的最终目标是作为理解现有文献的工具，并强调计算机视觉与自然语言处理可以找到最佳协同效应的研究领域的未来方向。

1-引言

图像描述是用自然语言描述图像视觉内容的任务，采用视觉理解系统和能够生成有意义且语法正确句子的语言模型。任务通常是一个图像到序列的问题，其输入为像素。这些输入在视觉编码步骤中被编码为一个或多个特征向量，为第二个生成步骤（语言模型）准备输入。第二步骤生成的则是根据给定词表解码的一系列单词或子词。

模型进展：从最初基于深度学习的提案采用循环神经网络（RNN）与全局图像描述符相结合，方法逐渐丰富，加入了注意力机制和强化学习，直至Transformer框架、自注意力机制以及单流BERT类方法的突破。

总结：1-遵循字幕模型固有的双重特性，我们为视觉编码和语言模型化方法开发了分类法，并描述了它们的关键方面和局限性。2-回顾了过去几年文献中采用的训练策略，以及通过预训练范式和掩蔽语言模型损失获得的最新进展。3-回顾了用于探索图像字幕的主要数据集，包括领域通用基准和收集的领域特定数据集，以调查特定方面。4-分析了用于性能评估的标准和非标准指标，以及它们所突出显示的字幕特征。5-对主要图像字幕方法进行了定量比较，考虑了标准和非标准指标，并讨论了它们之间的关系，从而阐明了性能、差异以及最重要模型的特征。6-概述了任务的多种变体，并讨论了开放挑战和未来方向。

2-视觉编码

图像描述生成流程：1. 基于全局CNN特征的非注意力方法；2. 使用网格或区域嵌入视觉内容的加性注意力方法；3. 添加视觉区域之间视觉关系的基于图形的方法；4. 采用基于Transformer的自注意力方法，这些方法可以通过使用基于区域、基于补丁或图像-文本早期融合的解决方案实现。

2.1全局 CNN 特征（a）

主要讨论了卷积神经网络（CNN）在图像描述生成中的应用。随着CNN的出现，图像输入模型的性能得到了显著提升。在图像描述的视觉编码阶段，常用的方法是提取CNN最后一层的激活作为高层次表示，并将其用作语言模型的条件输入。这一方法在多个研究中得到了应用，如“Show and Tell”论文中使用GoogleNet的输出作为语言模型的初始状态。虽然全局CNN特征具有简单和紧凑的优点，能够从整体上提取和压缩信息，但这种方法也存在信息过度压缩和缺乏细节的问题，导致生成的描述难以具体和细致。

2.2 基于卷积神经网络特征的注意力机制（b）

受到全局表示缺陷的启发，以下大多数方法提高了视觉编码的粒度水平。

加性注意力机制（Additive Attention）：这种方法首先由Xu等人提出，他们利用加性注意力机制对卷积层的空间输出网格进行处理。这使得模型能够选择性地关注网格中的某些元素，为每个生成的单词选择一个特征子集。具体来说，模型提取VGG网络最后一层的激活，然后使用加性注意力计算每个网格元素的权重，这些权重表示该元素在生成下一个单词时的相对重要性。
人类注意力的利用（Exploiting Human Attention）：一些研究整合了注意力信息，特别是人类在场景中更关注哪些部分，以指导描述生成。例如，Sugano和Bulling通过引入归一化的注视直方图，来帮助软注意力模块加权图像区域，权重的计算基于这些区域是否被注视。
多级特征（Multi-Level Features）：Chen等人提出了在卷积激活上使用通道级注意力，随后再进行经典的空间注意力处理。他们还尝试使用多个卷积层，以利用多级特征的信息。Jiang等人则使用多个CNN来获取互补信息，并通过递归过程融合其表示。
图编码（Graph-Based Encoding）：通过图编码机制，能够利用检测到的对象之间的关系，允许在相邻节点之间交换信息。这种方法能够整合外部语义信息，但手动构建图结构可能会限制视觉特征之间的交互。
自注意力编码（Self-Attention Encoding）：自注意力机制连接了集合中的每个元素，并通过残差连接计算其精炼表示。最初是为机器翻译和语言理解任务提出的，后来被应用于图像描述生成中。

2.3 注意力在视觉区域的作用(c)

我们的脑部将自顶向下的推理过程与自下而上的视觉信号流整合在一起。自顶向下的路径通过利用我们的知识和归纳偏好来预测即将到来的感官输入，而自下而上的流则提供了视觉刺激，以调整先前的预测。加性注意力可以被视为一个自顶向下的系统。在这个机制中，语言模型在关注特征网格的同时预测下一个单词，其几何形状与图像内容无关。

2.4 基于图形编码（3a）

主要讨论了图形编码在图像区域及其关系编码中的应用，以增强图像描述的表现力。首先，提到了一些研究使用图构建图像区域的语义和空间连接，以丰富图像表示。Yao等人和Guo等人利用图卷积网络（GCN）整合了对象之间的语义和空间关系，其中语义关系图通过在Visual Genome上进行的分类器预测获得，而空间关系图则通过几何度量推断。

接着，Yang等人提出了场景图的概念，强调了语义关系建模，通过将语义先验融入图像编码，形成了包含对象、属性和关系的有向图。Shi等人则通过直接在真实数据集上训练预测谓词节点的模块，进一步发展了语义关系图的概念。

此外，Yao等人还使用树形结构作为图形编码的特殊案例，表示图像的层次结构，其中根节点代表整个图像，中间节点代表图像区域及其子区域，而叶节点则表示区域中的分割对象。图形编码机制使得可以在局部范围内利用检测到的对象之间的关系，然而，手动构建的图结构可能会限制视觉特征之间的交互，这时自注意力机制通过完整图连接所有元素，显示出其更强的表现能力。

2.5 自注意力编码

自注意力是一种关注机制，其中一组中的每个元素与所有其他元素相连，并且可以通过残差连接计算相同元素集的精细表示（见图3b）。Transformer的成功表明，利用自注意力可以实现比注意力循环神经网络（RNN）更优越的性能。

自注意力机制：自注意力是一种注意力机制，使得集合中的每个元素与其他元素相连接，用以计算同一集合的精细表示。它最初由Vaswani等人提出，用于机器翻译和语言理解，推动了Transformer架构及其变体的发展，这些架构在自然语言处理和计算机视觉领域表现卓越。
自注意力的定义：自注意力使用缩放的点积机制，涉及三个向量集：查询向量（Q）、键向量（K）和值向量（V）。该机制根据查询和键向量之间的相似度分布，对值向量进行加权求和，从而生成输出。
早期自注意力应用：在图像描述生成的早期模型中，Yang等人利用自注意力模块来编码来自物体检测器的特征关系。随后，Li等人提出了一种Transformer模型，将视觉编码器与语义编码器结合，后者利用外部标记器的知识来增强描述生成。
自注意力操作的变体：研究者们还提出了多种自注意力操作的变体，以适应图像描述生成的需求，这些变体旨在优化视觉特征的编码。

2.6 讨论

在全局特征和网格特征出现之后，基于区域的特征凭借其出色的表现多年来一直是图像描述领域的最新选择。然而，最近不同的因素重新引发了关于哪种特征模型最适合图像描述的讨论，这些因素包括更好训练的网格特征的表现、自注意力视觉编码器的出现，以及像CLIP 这样的规模庞大的多模态模型。最近的策略包括在大规模数据上训练更好的目标检测器，或采用从零开始训练的端到端视觉模型。此外，BERT类解决方案在图像和文本早期融合中的成功表明，结合文本信息的视觉表示是合适的。

3-语言模型

语言模型的目标是预测给定词序列在句子中出现的概率。因此，它是图像描述中的一个关键组件，因为它使得处理自然语言作为随机过程成为可能。在给定前一个词的情况下预测下一个词时，语言模型是自回归的，这意味着每个预测词都依赖于前面的词。语言模型通常还通过输出一个特殊的序列结束词元来决定何时停止生成描述词。

应用于图像描述的主要语言模型化策略可以分为：1. 基于 LSTM 的方法，可以是单层或双层；2. 基于 CNN 的方法，首次尝试超越完全递归范式；3. 基于 Transformer 的全注意力方法；4. 图像-文本早期融合（类似 BERT）的策略，直接连接视觉和文本输入。

3.1 基于LSTM的模型

单层LSTM：

在图像描述生成领域，基于单层长短期记忆网络（LSTM）的架构是最基本的模型之一。该模型的工作流程如下：首先，视觉编码被用作LSTM的初始隐藏状态，随后在每个时间步生成输出标题。具体而言，每次生成一个单词时，模型会通过对隐藏状态进行softmax激活，将其映射到与词汇表相同大小的向量上。在训练阶段，输入的单词来自于真实的地面真值句子，而在推断阶段，输入的单词则是先前生成的单词。

随后，Xu等引入了加性注意机制，该机制使得之前的隐藏状态能够指导注意力机制对视觉特征的关注，从而计算出上下文向量，并将其输入到多层感知机中以预测输出单词。

在此基础上，许多后续研究采用了基于单层LSTM的解码器，大多数没有进行架构上的重大更改，但也有一些显著的改进。例如，Lu等提出了“视觉哨兵”概念，通过引入一个可学习的向量来增强空间图像特征，使得在生成非视觉单词时，模型可以关注该向量，而不是视觉特征。此时，视觉哨兵根据之前的隐藏状态和生成的单词计算得出，并与关注的图像特征结合，生成上下文向量。

此外，Chen等提出了隐状态重构的方法，以正则化语言模型的过渡动态，使用第二个LSTM重构之前的隐藏状态。Ge等通过使用双向LSTM和辅助模块增强上下文建模，最终结合网格视觉特征与双向LSTM生成的两个句子，以获得最终的标题。

Wang等提出了多阶段生成方法，通过将标题生成过程分解为两个阶段：从粗略的中心方面到细化属性的生成，均由单层LSTM实现。Gu等则设计了一个粗到细的多阶段框架，使用一系列LSTM解码器，每个解码器基于前一个解码器的输出生成越来越精细的标题。

最后，Jia等提出了语义引导LSTM的扩展，利用额外的语义信息来指导生成过程，这些信息包括来自跨模态检索模型的句子、多模态嵌入的向量以及图像本身。具体而言，语义信息被用作LSTM块中每个门的额外输入。

双层LSTM

在图像字幕生成中，双层LSTM（长短期记忆网络）被广泛应用以增强模型捕捉更高阶关系的能力。Donahue等人首次提出了双层LSTM结构，其中第一层的隐藏状态作为第二层的输入。Anderson等人进一步提出将两层专门化，第一层作为自上而下的视觉注意模型，结合之前生成的单词、前一个隐藏状态和均值池化后的图像特征，计算图像区域的概率分布。第二层则结合第一层的隐藏状态与所得到的注意特征向量，生成词汇的概率分布。

此外，许多变种被提出以提高性能。例如，Lu等人引入了一个指向网络来将单词与图像区域关联，通过预测在生成过程中填充的插槽；Ke等人提出反射注意机制，增强句子的句法结构；Qin等人采用“回顾与预测前瞻”模块以减少推理时的错误积累；Huang等人则提出适应性注意时间机制，使解码器可以为每个生成的单词自适应地选择任意数量的注意步骤。这些方法旨在提升图像字幕生成的效果，使模型在生成过程中更加灵活和准确。

自注意力增强LSTM

一些研究在基于LSTM的语言模型中采用了自注意力运算符来替代加性注意力运算符。

3.2 卷积语言模型

将卷积用于语言模型。具体而言，全局图像特征向量与词嵌入结合，并输入到一个卷积神经网络（CNN）中，在训练过程中对所有单词进行并行处理，在推断过程中则按顺序处理。卷积操作采用右侧掩码，以防止模型使用未来单词符号的信息。

3.3 基于Transformer的架构

Transformer模型是由Vaswani等人提出的，它通过全注意力机制彻底改变了语言生成的方式，成为自然语言处理（NLP）领域的基础架构，推动了诸如BERT和GPT等多项突破。

在图像描述生成任务中，Transformer被视为一个序列到序列的问题，标准的Transformer解码器采用了掩蔽自注意力机制，这种机制在生成过程中对先前的单词进行掩蔽，以实现单向生成。同时，解码器还通过交叉注意力机制将先前生成的单词作为查询，与最后编码器层的输出（作为键和值）进行交互，最后通过一个前馈网络进行处理。

许多图像描述生成模型直接采用了原始的Transformer解码器结构，而一些变体则被提出以改进语言生成和视觉特征编码。例如，Li等人提出了一种门控机制，用于控制交叉注意力操作的视觉和语义信息流，通过结合和调节图像区域表示与来自外部标记器的语义属性来实现。

3.4 BERT架构

利用BERT类结构在视觉和文本模态早期阶段融合（图7）。这种架构的主要优势在于处理文本的层可以使用从大量文本语料库中学得的预训练参数进行初始化。

3.5 非自回归语言模型

由于Transformer框架所提供的并行性，非自回归语言模型在机器翻译中被提出，以通过并行生成所有词汇来减少推断时间。

4-训练策略

主要讨论了图像标题生成模型的训练策略。该章节首先介绍了图像标题生成模型通常按单词逐步生成标题的过程，其中每一步的输出单词是根据之前的单词和图像信息进行采样的。最简单的解码机制是贪婪解码，但这种方法容易导致预测错误的积累，因此采用了更为有效的束搜索算法来维护多个候选序列，以提高最终输出的准确性。

为此，最常见的训练策略基于1. 交叉熵损失；2. 掩码语言模型；3. 强化学习，允许直接优化特定于描述的不可微分指标；4. 视觉与语言的预训练目标。

交叉熵损失：这是最常用的目标函数，旨在最小化当前单词在给定前面真实单词条件下的负对数似然。
掩码语言模型（MLM）：这种策略通过随机掩盖输入序列的一部分，训练模型预测被掩盖的单词，增强模型的上下文理解能力。
强化学习：由于单词级训练策略在数据量有限时的局限性，强化学习被引入，以最大化生成句子的期望奖励，常用的奖励信号包括BLEU、ROUGE、CIDEr等。
大规模预训练：该策略利用噪声数据进行预训练，证明在无需微调的情况下也能达到优秀的性能。预训练目标包括掩码上下文令牌损失和对比损失等，以提升图像和文本的联合表示能力。

5-评估协议

主要讨论了图像描述生成任务中的评估协议。该章从多个方面详细介绍了图像描述的数据集和评估指标，强调了在图像描述的研究中，数据集的收集和量化评分的定义对性能评估的重要性。

5.1节介绍了图像描述数据集，包括标准数据集、预训练数据集和特定领域的数据集。标准数据集如Flickr30K、Flickr8K和Microsoft COCO被广泛使用，以便于研究者在一个共同的测试平台上进行比较。COCO数据集包含复杂场景中的图像，每幅图像配有多达五个描述。预训练数据集，如SBU Captions和YFCC100M，提供了更大规模的图像-文本对，有助于模型的训练。特定领域数据集则针对特定挑战，能够捕捉到与普通领域不同的术语分布。

5.2节讨论了评估指标，强调了自动评分方法的复杂性和主观性。该节介绍了标准评估指标，例如BLEU、METEOR和ROUGE，这些通常用于自然语言处理任务，但也被应用于图像描述评估。此外，还介绍了特定于图像描述的指标，如CIDEr和SPICE，它们更好地反映了生成描述的质量。评估还包括多样性指标和学习基础的评估方法，这些方法旨在通过学习模型来评估生成描述的完整性和人类相似性。

总体而言，第五章强调了数据集的多样性和评估标准在推动图像描述生成领域进展中的关键作用，并指出了现有评估方法的局限性，呼吁在这一领域进行更多的研究与探索。

6-实验评估

第六章节主要讨论了图像标注任务中的实验评估，具体分为几个部分：

任务分类：章节首先将图像标注的具体子任务分为五类，分别是：处理缺乏训练数据、聚焦视觉输入、聚焦文本输出、特定应用以及满足用户需求。这种分类有助于研究不同领域的相关问题和技术进展。
性能分析：通过表格分析了一些主要方法的性能，使用了章节五中提到的各种评估指标。表格中展示了不同方法在各种评估分数下的表现，包括模型的参数数量，以此来反映模型的计算复杂性和内存占用。
数据集使用：章节强调了COCO数据集作为基准在领域内的重要性，并展示了不同方法在该数据集上的表现。结果显示，采用区域基础视觉编码的方法显著提升了标准和嵌入式评估指标的表现。
技术进步：随着视觉和语言预训练的引入，CIDEr、SPICE和Coverage等指标的表现得到了显著改善。同时，章节还指出了多样性指标（如Div-1和Div-2）之间的相关性，以及这些指标与标准评估指标的几乎线性关系。
评估方法的局限性：章节还讨论了基于学习的评估策略，表明仅依赖于文本数据训练的模型在区分图像标注方法时效果不佳。相反，使用视觉信息作为参考，结合适当的视觉-语言预训练模型能够更好地评估模型性能。

总结而言，第六章节通过对不同图像标注方法的性能分析和比较，强调了视觉编码的重要性以及当前评估方法的挑战，提供了对未来研究方向的启示。

7-示例

主要讨论了图像描述中的几个具体子任务和挑战，内容可以分为以下几个部分：

7.1 处理训练数据不足：这一部分探讨了“新颖对象描述”，即描述在训练集中未出现的对象，从而实现零样本学习。早期的研究通过在训练时利用外部未配对的视觉和文本数据来转移知识。为此，引入了一个变体的COCO数据集，去除了包含八个预选对象类的图像-描述对。此外，提出了更具挑战性的nocaps数据集，包含近400个新对象的描述。一些方法通过在语言模型中集成复制机制或使用约束束搜索算法来实现对新对象的描述。

7.2 关注视觉输入：包括“基于文本的图像描述”，即从图像中读取并包含出现的文本；以及“变化描述”，即检测场景中的变化并生成描述，通常需要准确的变化检测和自然语言描述。

7.3 关注文本输出：这一部分探讨了如何生成多样化的描述，反映人类描述的多样性和复杂性。提出了一些方法，如基于变束搜索算法的多样性描述、对比学习和多语种描述等，以适应不同语言的需求。

7.5 满足用户需求：个性化描述旨在生成考虑用户先前知识、活跃词汇和写作风格的描述。这一部分还讨论了可控描述，用户可以选择和优先描述图像中的特定内容。此外，提出了描述编辑的概念，以纠正生成的描述中的重复和不一致性。

总体而言，第七章节重点在于探索如何在图像描述中处理不同的视觉和文本输入、提升描述的多样性和个性化，以满足用户的具体需求和解决训练数据不足的问题。

8- 结论与未来方向

图像描述对于机器智能而言本质上是一个复杂的挑战，因为它融合了计算机视觉和自然语言处理的难题。此外，如引言中所提到的，该任务本身定义模糊，描述可以原则上以多种不同的风格和目标生成。所呈现的文献综述和实验比较显示了在标准数据集上近年来性能的提升。

图像描述领域的三个主要发展方向：

程序和架构挑战：由于图像描述模型对数据的贪心，尽管数据集未经过精心策划，基于大规模数据集的预训练已成为一种可靠的策略。

泛化、多样性、长尾概念：虽然在网络规模的数据集上进行预训练为提高泛化能力和促进长尾概念提供了一个有前景的方向[97]，但专注于特定领域并生成具有不同风格和目的的描述仍然是图像描述的主要开放挑战之一。

可信赖的人工智能解决方案设计：由于其在人与机器交互中的潜力，图像描述需要透明且可接受的解决方案，框架应当克服偏差并具备可解释性。由于大多数视觉与语言数据集共享共同模式和规律，数据集的偏差和过度代表的视觉概念是任何视觉与语言任务的主要问题。此外，由于该任务目前被定义为监督任务，因此强烈受训练数据的影响，开发不需要参考描述来评估性能的评分将是向无监督图像描述转变的关键。最后，由于现有的图像描述算法缺乏可靠和可解释的方法来确定特定输出的原因，进一步的研究需要更多地关注模型的可解释性，重点是这些模型如何处理不同的模态或新概念。

补充：

长尾概念（Long-Tail Concepts）

定义：
在机器学习（尤其是计算机视觉和自然语言处理领域）中，"长尾概念"指数据分布中出现频率较低但类别数量庞大的样本或类别。这些概念通常位于长尾分布（Long-Tail Distribution）的尾部区域，与头部高频概念（高频类别）形成对比。

核心特点：

数据不平衡性：少数高频类别占据大部分数据（如80%的样本可能属于20%的类别），而大量长尾类别样本稀少。
多样性：长尾部分包含大量细粒度、小众或罕见的概念（例如图像中的"斑海豹"vs常见的"狗"，或文本中的"量子纠缠"vs"天气"）。
模型挑战：传统模型易偏向高频概念，导致对长尾概念的识别或生成性能显著下降。

示例：
在图像描述生成（Image Captioning）任务中，若训练数据中"斑马"图片远多于"霍加狓"（罕见动物），模型可能无法准确描述后者——此时"霍加狓"即属于长尾概念。

图像描述生成流程（Image Captioning Pipeline）

定义：
图像描述生成流程（Image Captioning Pipeline）是指将输入图像自动转换为自然语言描述（如一句或一段文本）的完整计算过程。该流程通常结合计算机视觉（CV）和自然语言处理（NLP）技术，实现从像素到语义的跨模态理解与生成。

示例

输入：一张图像（如“沙滩上的狗”）。
特征提取：CNN检测出“狗”“沙滩”“海浪”等视觉特征。
文本生成：LSTM/Transformer基于特征生成单词序列（如“A dog is playing on the beach”）。
优化：束搜索选择概率最高的句子，并调整措辞（如“playing” → “running”）。

注意力机制（Attention Mechanism）的概念与起源

注意力机制是一种在神经网络中动态分配权重以聚焦输入数据关键部分的技术，广泛应用于自然语言处理（NLP）、计算机视觉（CV）和语音识别等领域。其核心思想是让模型能够根据任务需求，选择性地关注输入的不同部分，从而提高信息处理的效率和准确性912。

1. 注意力机制的核心概念

动态权重分配：不同于传统神经网络（如RNN、CNN）对所有输入数据平等对待，注意力机制会根据输入与当前任务的相关性计算权重，使模型更关注重要信息9。
查询（Query）、键（Key）、值（Value）机制：
- Query：代表当前任务需要关注的内容（如解码器当前要生成的词）。
- Key：输入数据的特征表示（如编码器的隐藏状态）。
- Value：实际用于计算输出的信息（通常与Key相同）。
  通过计算Query和Key的相似度（如点积或加性注意力），模型生成注意力权重，再对Value加权求和得到最终输出。

2. 注意力机制的起源论文

注意力机制最早由 Dzmitry Bahdanau 等人在2014年的论文 《Neural Machine Translation by Jointly Learning to Align and Translate》（arXiv:1409.0473）中提出。

背景：当时的机器翻译主要基于Seq2Seq（Encoder-Decoder）架构，但存在信息瓶颈问题——编码器需将整个输入句子压缩成固定长度的向量，导致长句子信息丢失。
创新：Bahdanau等人引入可学习的对齐模型（Alignment Model），使解码器在生成每个词时能动态关注源句子的不同部分，而非依赖单一固定向量6。
命名：最初称为“RNNSearch”，后由Yoshua Bengio建议更名为“注意力机制（Attention Mechanism）”，因其更直观地反映了模型的核心思想6。

3. 后续发展与关键改进

2015年：Kelvin Xu等人在图像描述生成任务中引入软注意力（Soft Attention）和硬注意力（Hard Attention）。
2017年：Transformer架构（《Attention Is All You Need》）将自注意力（Self-Attention）和多头注意力（Multi-Head Attention）推向主流，彻底改变了NLP领域。

4. 注意力机制的主要类型

类型	特点	应用场景
Soft Attention	可微，计算所有位置的加权平均	机器翻译、图像描述生成
Hard Attention	不可微，每次仅关注一个位置（需强化学习训练）	图像分类、目标检测
Self-Attention	同一序列内部计算注意力，捕捉长距离依赖	Transformer、BERT、GPT
Cross-Attention	不同模态间计算注意力（如文本-图像）	多模态学习（CLIP、Florence）

非自回归语言模型

Non-Autoregressive Language Models, NAR是一类无需依序逐个生成token的语言模型，与传统的自回归模型（如GPT）逐词生成的模式形成对比。其核心目标是提升生成速度，尤其适用于对实时性要求高的场景（如机器翻译、语音合成等）。

1. 自回归 vs. 非自回归

自回归模型（AR）
- 生成方式：严格从左到右（或双向）逐个生成token，每个token依赖之前生成的token（如GPT、BERT的生成任务）。
- 优点：生成质量高，连贯性强。
- 缺点：速度慢（无法并行生成），延迟高。
非自回归模型（NAR）
- 生成方式：一次性预测所有token（或分阶段生成），不依赖前后token的顺序。
- 优点：生成速度快（可并行计算），适合批量处理。
- 缺点：生成质量可能下降（因忽略token间依赖关系）。

2. 非自回归模型的典型方法

(1) 基于目标长度预测

示例模型：NAT（Non-Autoregressive Transformer）
- 先预测输出序列长度，再并行生成所有位置的token。
- 挑战：长度预测不准会导致生成错误。

(2) 迭代修正

示例模型：CMLM（Conditional Masked Language Model）
- 通过多轮迭代逐步修正生成结果（类似BERT的掩码填充）。
- 每轮迭代掩码部分低置信度token并重新预测。

(3) 知识蒸馏

方法：用自回归模型（如Transformer）作为教师模型，训练学生模型模仿其输出分布，以缓解NAR生成质量下降的问题。

(4) 概率隐变量模型

示例模型：Flowseq（基于流模型）
- 引入隐变量建模token间依赖关系，通过概率分布采样生成序列。

从展示到叙述：基于深度学习的图像字幕生成研究综述

摘要