TransNormerLLM:第一个基于线性注意力的大模型

TransNormerLLM:第一个基于线性注意力的大模型

收录于合集#论文速递227个

添加微信fanqie6655加入技术交流群

概述

本文研究背景是在自然语言处理领域,大规模语言模型(LLMs)的兴起。

过去的方法主要集中在Transformer架构上,存在一些问题,所以本文提出新的方法。

本文提出了TransNormerLLM模型,对线性注意力模型进行了进一步的发展和优化,并在模型设计、加速、规范化等方面进行了改进。

该方法在训练和推理阶段都取得了卓越的性能,能够实现大规模部署,并且在自己收集的语料库上进行了全面的实验证明,取得了优秀的性能指标。

图片

图片

重要问题探讨

1. 对于大语言模型(LLMs)的发展而言,开源模型和闭源模型之间的竞争动态如何?这些竞争对于该领域的发展有何影响?

开源模型(如BLOOM、OPT、LLaMA、Pythia和Falcon)与闭源模型(如GPT-3和Chinchilla)之间存在竞争。这种竞争动态对于大语言模型领域的发展具有积极作用。开源模型的兴起为研究人员提供了更多选择,并鼓励了理念的共享和协作。另外,开源模型的性能不断提高,有望在与闭源模型的竞争中占据一席之地。竞争也促使闭源模型更加注重性能和创新,以保持领先地位。总体而言,这种竞争动态有助于推动大语言模型领域的进步。

2. 在传统Transformer结构之外,有哪些非Transformer-based LLMs的候选架构?它们相对于自注意力模块(SA)在建模长序列上有哪些优势和竞争力?

非Transformer-based LLMs的候选架构主要包括线性变换器、状态空间模型、长卷积和线性递归。相对于自注意力模块,这些候选架构具有更优秀的渐近时间复杂度和竞争性能。

其中,线性变换器将Softmax Attention分解为隐藏表示的内积形式,并通过计算键和值的乘积来避免了二次n × n矩阵的计算。不同的方法利用不同的隐藏表示。虽然线性变换器的理论复杂度为O(nd2),但当在因果注意力中使用时,线性注意力的实际计算效率会变得较低,因为需要进行cumsum操作。然而,与传统Transformer相比,大部分线性变换器在性能上仍存在一定的差距。

另一方面,状态空间模型基于序列建模的状态空间方程,借助特殊的初始化、对角化假设和一些技术,实现了与Transformer相当的性能。由于状态空间方程的特性,它能够进行推断操作,并且在建模长序列时表现良好。

总结而言,这些非Transformer-based LLMs候选架构通过不同的方法替代了自注意力模块,具有更优秀的时间复杂度和可竞争的性能。

3. 超过1000亿参数的大语言模型如GPT-3、Gopher、PaLM、GLM和Galactica等已经问世,相比于模型权重,它们更关注于令牌的数量,这如何重新定义了规模扩展律?

传统上,模型规模的扩展以模型权重为重点,即参数的数量。然而,相较于模型权重,上述大语言模型更关注于令牌的数量,即输入序列的长度。这种重新定义规模扩展律,意味着这些模型所关注的是能处理更长序列的能力,而不仅仅是增加参数数量。这种新定义对于模型设计和性能评估提供了新的视角,并为处理长文本等应用场景提供了更多可能性。

4. Sparse Attention是一项用于加速大模型训练的技术,但迄今为止,只有GPT-3采用了Sparse Attention。那么,Sparse Attention的采用对于大模型的训练有何意义?

Sparse Attention的采用意味着只有相关的令牌之间才会进行注意力计算,从而减少了计算的复杂度。对于大模型训练,这样的技术带来了两个方面的意义。首先,Sparse Attention可以显著减少训练所需的计算资源,从而提高了训练的效率。其次,采用Sparse Attention可以降低模型的存储需求,使得更大规模的模型可以被训练和部署。因此,Sparse Attention的采用对于大模型的训练具有重要意义,能够提升训练效率和模型规模的可扩展性。

5. 上述非Transformer-based LLMs中的候选架构如线性变换器状态空间模型,在与传统Transformer模型相比时存在性能差距。那么,这些候选架构相对于Transformer模型的主要优势是什么?

尽管线性变换器和状态空间模型相对于传统Transformer模型存在性能差距,但它们仍具有一些主要优势。线性变换器通过利用隐藏表示的内积形式来避免二次计算,从而具有更好的渐近时间复杂度。状态空间模型则通过特殊的初始化、对角化假设和一些技术,实现了与Transformer相当的性能,同时能够进行推断操作。这些候选架构为解决传统Transformer的二次空间-时间复杂度问题提供了可行的方案,并在建模长序列时具有竞争性能。虽然性能差距仍然存在,但这些优势使得候选架构在特定应用场景中具备了一定的竞争力和潜力。

GitHub链接:https://github.com/OpenNLPLab/TransnormerLLM

论文链接:https://arxiv.org/abs/2307.14995.pdf

猜你喜欢

转载自blog.csdn.net/sinat_37574187/article/details/131986295