Bag of Words |
1954 |
即 BOW 模型,计算文档中每个单词出现的次数,并将它们用作特征。 |
TF-IDF |
1972 |
对 BOW 进行修正,使得稀有词得分高,常见词得分低。 |
Word2Vec |
2013 |
每个词都映射到一个称为词嵌入的高维向量,捕获其语义。词嵌入是通过在大型语料库中寻找词相关性的神经网络来学习的。 |
RNN |
1986 |
RNN 利用句子中词的上下文计算文档嵌入,这仅靠词嵌入是不可能的。后来发展为 LSTM (1997 )以捕获长期依赖关系,并演变为 Bidirectional RNN (1997 )以捕获从左到右和从右到左的依赖关系。最终,Encoder-Decoder RNNs (2014 )出现了,其中一个 RNN 创建文档嵌入(即编码器),另一个 RNN 将其解码为文本(即解码器)。 |
Transformer |
2017 |
一种 编码器-解码器 模型,它利用注意力机制来计算更好的嵌入并更好地将输出与输入对齐。 |
BERT |
2018 |
双向 Transformer,使用掩码语言建模(Masked Language Modeling )和下一句预测目标(Next Sentence Prediction objectives )的组合进行预训练。它使用全局注意力。 |
GPT |
2018 |
第一个基于 Transformer 架构的自回归模型。后来演变成 GPT-2 (2019 ),一个在 WebText 上预训练的更大和优化的 GPT 版本,以及 GPT-3 (2020 ),一个更大和优化的 GPT-2 版本,在 Common Crawl 上预训练。 |
CTRL |
2019 |
类似于 GPT,但具有用于条件文本生成的控制代码。 |
Transformer-XL |
2019 |
一个自回归 Transformer,可以重用以前计算的隐藏状态来处理更长的上下文。 |
ALBERT |
2019 |
BERT 的轻量级版本,其中:(1)下一句预测被句序预测取代;(2)参数减少技术用于降低内存消耗和加快训练速度。 |
RoBERTa |
2019 |
BERT 的更好版本,其中:(1)Masked Language Modeling 目标是动态的;(2)Next Sentence Prediction 目标被删除;(3)使用 BPE tokenizer ;(4)使用更好的超参数. |
XLM |
2019 |
Transformer 使用因果语言建模、掩码语言建模和翻译语言建模等目标在多种语言的语料库上进行了预训练。 |
XLNet |
2019 |
Transformer-XL 具有广义自回归预训练方法,可以学习双向依赖性。 |
PEGASUS |
2019 |
一个双向编码器和一个从左到右的解码器,使用掩码语言建模和间隙句子生成目标进行了预训练。 |
DistilBERT |
2019 |
与 BERT 相同,但更小更快,同时保留 BERT 95% 以上的性能。通过预训练的 BERT 模型的蒸馏进行训练。 |
XLM-RoBERTa |
2019 |
RoBERTa 在具有掩蔽语言建模目标的多语言语料库上进行训练。 |
BART |
2019 |
一个双向编码器和一个从左到右的解码器,通过使用任意噪声函数破坏文本并学习模型来重建原始文本来训练。 |
ConvBERT |
2019 |
BERT 的更好版本,其中自注意力模块被新模块取代,利用卷积更好地模拟全局和局部上下文。 |
Funnel Transformer |
2020 |
一种 Transformer,它逐渐将隐藏状态的序列压缩到更短的状态,从而降低计算成本。 |
Reformer |
2020 |
由于对局部敏感的哈希注意力、轴向位置编码和其他优化,一个更高效的 Transformer。 |
T5 |
2020 |
一个双向编码器和一个从左到右的解码器,在无监督和监督任务的混合上进行了预训练。 |
Longformer |
2020 |
一种将注意力矩阵替换为稀疏矩阵以提高训练效率的 Transformer 模型。 |
ProphetNet |
2020 |
一种使用未来 N-gram 预测目标和新颖的自注意力机制训练的 Transformer 模型。 |
ELECTRA |
2020 |
与 BERT 相同,但更轻更好。该模型使用 Replaced Token Detection 目标进行训练。 |
Switch Transformers |
2021 |
一种稀疏激活的专家 Transformer 模型,旨在简化和改进专家混合模型。 |