Mamba:超越Transformer的新一代神经网络架构

image.png

在过去的七年里,Transformer一直在语言建模领域占据着主导地位。然而,现在有一个新兴的神经网络架构Mamba,正在挑战Transformer的霸主地位。虽然目前Mamba仅在规模较小的模型上进行了测试(参数量达到数十亿),但其结果已经展现出巨大的潜力。此外,与Transformer相比,Mamba所需的计算量更少。对于n个单词的输入序列,Mamba仅需O(nlog(n))的计算量,而Transformer则需要O(n^2)的计算量。因此,基于Mamba的语言模型应该能够处理~~~~更大的上下文信息量。

什么是Mamba?

Mamba通常被认为是状态空间模型(State-Space Model)的一种扩展。状态空间模型是一种序列模型,近年来逐渐受到关注。然而,状态空间模型背后的理论相当复杂,涉及到一些高级数学。幸运的是,Mamba也可以被理解为递归神经网络(Recurrent Neural Networks,简称RNNs)的扩展,而RNNs相对来说更容易理解。因此,我们将通过RNN的路径来理解Mamba。

递归神经网络概述

递归神经网络是一种处理序列数据的神经网络。给定一个输入向量序列,一个卷积层会对连续的向量组应用神经网络。关键在于神经网络每次只处理少量向量,这使得模型易于训练。然而,卷积神经网络(CNNs)的一个缺点是,远处向量的信息不能被立即组合起来,这使得它们难以理解输