xLSTMTime : 基于 xLSTM 的长期时间序列预测

文章目录

xLSTMTime : 基于 xLSTM 的长期时间序列预测

摘要:近年来，基于变换器的模型在多变量长期时间序列预测(LTSF)中获得了显著关注，尽管面临高计算需求、捕捉时间动态的困难以及管理长期依赖关系等挑战，但仍显示出显著进展。LTSF-Linear 的出现，以其简单的线性架构，显著优于基于变换器的模型，促使人们重新评估变换器在时间序列预测中的实用性。对此，本文提出了一种近期架构的改编，称为扩展 LSTM(xLSTM)，用于 LTSF。xLSTM 结合了指数门控和具有更高容量的修订内存结构，具有良好的 LTSF 潜力。我们为 LTSF 采用的架构称为 xLSTMTime，超越了当前的方法。我们将 xLSTMTime 的性能与多种最先进模型在多个真实世界数据集上的表现进行了比较，展示了其卓越的预测能力。我们的研究结果表明，精细的递归架构可以为 LTSF 任务提供与基于变换器的模型竞争的替代方案，可能重新定义时间序列预测的格局。代码:https://github.com/muslehal/xLSTMTime

关键词:xLSTM；变换器；线性网络；时间序列预测；状态空间模型

1. 引言

使用人工智能进行时间序列预测已成为许多年来一个重要的研究领域。电力、交通、金融和天气等历史数据常被用于训练各种应用的模型。早期的一些时间序列预测技术依赖于统计学和数学模型，如 SARIMA [1,2,3] 和 TBATs [4]。这些模型使用移动平均和季节性周期来捕捉未来预测的模式。随着机器学习的出现，开发了使用线性回归 [5] 的新方法。在这里，采用基于分组的二次均值损失函数，以提高线性回归在时间序列预测中的性能。机器学习中的另一种方法是基于一种称为 XGBoost [6] 的决策树集成。这种方法使用梯度提升决策树 (GBDT)，每棵新树都专注于纠正前一棵树的预测误差。

深度学习引入了一些新的方法。一些早期使用的技术包括基于Elman RNN的递归神经网络(RNNs)[Z]，以及长短期记忆(LSTM)和门控递归单元(GRU)。这些设计能够捕捉数据中的序列依赖性和长期模式[8]。递归方法之后，卷积神经网络(CNNs)被应用于时间序列，例如[9,10,11]。近年来，基于变换器的架构已成为自然语言处理(NLP)中最流行的方法。它们在NLP中的成功使得在其他领域(如图像处理、语音识别以及时间序列预测)使用它们成为可能。一些流行的基于变换器的时间序列方法包括[12,13,14,15,16,17,18]。其中，Informer [12] 引入了一种ProbSparse自注意力机制，并结合蒸馏技术以实现高效的关键提取。Autoformer [13] 结合了经典时间序列分析中的分解和自相关概念。FEDformer [14] 利用傅里叶增强结构实现线性复杂度。最近一种名为PatchTST [16] 的基于变换器的架构将时间序列分解为更小的片段，以作为模型的输入标记。另一种最近的设计iTransformer [18] 独立地反转每个时间序列变量的嵌入。单个系列的时间点被嵌入到变量标记中，这些标记被注意力机制用来捕捉多变量相关性。此外，前馈网络被应用于每个变量标记，以学习非线性表示。尽管上述设计已显示出有效的结果，但变换器在时间序列预测中面临挑战，因为它们难以建模非线性时间动态、顺序敏感性以及对长序列的高计算复杂性。噪声敏感性和处理长期依赖性进一步复杂化了它们在涉及波动数据(如金融预测)领域的应用。不同的基于变换器的设计，如Autoformer、Informer和FEDformer，旨在缓解上述问题，但往往以某些信息损失和可解释性为代价。

因此，一些近期的时间序列研究尝试探索除了基于 Transformer 的设计以外的方法。这些方法包括 LTSF-Linear [19]、ELM [20] 和 Timesnet [21]。LTSF-Linear 极其简单，仅使用一个线性层。它在流行的时间序列预测基准测试中超越了许多基于 Transformer 的模型，如 Informer、Autoformer 和 FEDformer [12,13,14]。TimesNet [20] 使用模块化的 TimesBlocks 和一个 inception block，将 1D 时间序列转换为 2D，有效处理多周期分析中各个周期内和跨周期的变化。ELM 通过结合具有批量归一化和可逆实例归一化的双管道进一步改进了 LTSF-Linear。随着状态空间方法 [22] 的近期流行，一些时间序列研究探索了这些思想，并取得了令人鼓舞的结果，例如 SpaceTime [23]，它捕捉自回归过程并包括用于扩展预测的“闭环”变体。

LTSF-Linear [19] 和 ELM [20] 以简单的线性架构在超越更复杂的基于 Transformer 的模型方面取得的成功，促使人们重新评估时间序列预测的方法。这一意外结果挑战了越来越复杂的架构必然导致更好预测性能的假设。鉴于这些发现，我们提出对最近提出的改进 LSTM 架构 xLSTM 的增强。我们对 xLSTM 进行调整和改进，以用于时间序列预测，并将我们的架构称为 xLSTMTime。该模型结合了指数门控和修订的记忆结构，旨在提高时间序列预测任务中的性能和可扩展性。我们将 xLSTMTime 与多种最先进的时间序列预测模型在多个真实世界数据集上进行比较，展示了其卓越的性能，突显了精细化递归架构在这一领域的潜力。

2. 相关工作

尽管 LSTM 是最早应用于自然语言处理的流行深度学习方法之一，但它被变压器的成功所掩盖。最近，这种架构得到了重新审视和极大改进。修订后的 LSTM 被称为 xLSTM - 扩展长短期记忆 [24]。它对传统 LSTM 架构进行了增强，旨在提升其在大型语言模型中的性能和可扩展性。关键进展包括引入指数门控以改善归一化和稳定性、修订的记忆结构，具有标量和矩阵变体，以及集成到残差块骨干网络中。这些改进使得 xLSTM 能够与最先进的变压器 [25] 和状态空间模型 [22] 进行竞争。xLSTM 有两个架构变体，分别称为 sLSTM 和 mLSTM，具体说明如下。

2.1 sLSTM

稳定长短期记忆 (sLSTM) [24] 模型是传统 LSTM 架构的高级变体，结合了指数门控、记忆混合和稳定机制。这些增强提高了模型在有效存储决策、处理自然语言处理中的稀有标记预测、捕捉复杂依赖关系以及在训练和推理过程中保持鲁棒性的能力。描述 sLSTM 的方程如 [24] 所述。为了完整性，我们在此呈现这些方程，然后再描述它们在时间序列预测领域的适应。

sLSTM 的架构如图 1 所示。

图 1:sLSTM 的架构

对于 sLSTM，输入与状态之间的递归关系描述为: ${c}_{t} = {f}_{t}{c}_{t - 1} + {i}_{t}{z}_{t} \tag{1}$ 其中 ${c}_{t}$ 是时间步 $t$ 的单元状态。它保留了网络的长期记忆， ${f}_{t}$ 是遗忘门， ${i}_{t}$ 是输入门， ${z}_{t}$ 控制要添加到单元状态的输入量和先前的隐藏状态 ${h}_{t - 1}$ ，如下所述。 ${z}_{t} = \varphi \left( {\widetilde{z}}_{t}\right) ,\;{\widetilde{z}}_{t} = {\mathcal{W}}_{z}^{\top }{x}_{t} + {r}_{Z}{h}_{t - 1} + {b}_{z} \tag{2}$ 在上述方程中， ${x}_{t}$ 是输入向量， $\varphi$ 是激活函数， ${\mathcal{W}}_{z}^{\top }$ 是权重矩阵， ${r}_{z}$ 是递归权重矩阵，而 ${b}_{z}$ 表示偏置。

该模型还使用归一化状态如下: ${n}_{t} = {f}_{t}{n}_{t - 1} + {i}_{t} \tag{3}$ 其中 ${n}_{t}$ 是时间步 $t$ 的归一化状态。它有助于归一化单元状态更新。隐藏状态 ${h}_{t}$ 用于递归连接如下: ${h}_{t} = {o}_{t}{\widetilde{h}}_{t},\;{\widetilde{h}}_{t} = {c}_{t}/{n}_{t} \tag{4}$ 其中 ${o}_{t}$ 是输出门。输入门 ${i}_{t}$ 控制新信息添加到单元状态的程度如下: ${\widetilde{\iota }}_{t} = {\mathcal{W}}_{z}^{\top }{x}_{t} + {r}_{i}{h}_{t - 1} + {b}_{i} \tag{5}$ 类似地，遗忘门 ${f}_{t}$ 控制保留先前单元状态 ${c}_{t - 1}$ 的程度。 ${f}_{t} = \sigma \left( {\widetilde{f}}_{t}\right) \text{ OR }\exp \left( {\widetilde{f}}_{t}\right) \;{\widetilde{f}}_{t} = {\mathcal{W}}_{f}^{\top }{x}_{t} + {r}_{f}{h}_{t - 1} + {b}_{f} \tag{6}$ 输出门 ${o}_{t}$ 控制从单元状态到隐藏状态的信息流如下: ${o}_{t} = \sigma \left( {\widetilde{o}}_{t}\right) ,\;{\widetilde{o}}_{t} = {\mathcal{W}}_{o}^{\top }{\mathcal{X}}_{t} + {r}_{o}{h}_{t - 1} + {b}_{o} \tag{7}$ 其中 ${\mathcal{W}}_{o}^{\top }$ 是应用于当前输入的权重矩阵， ${x}_{t},{r}_{o}$ 是应用于先前隐藏状态的输出门的递归权重矩阵， ${h}_{t - 1}$ 和 ${b}_{o}$ 是输出门的偏置项。

为了提供指数门的数值稳定性，遗忘门和输入门被组合成另一个状态 ${m}_{t}$ 如下: ${m}_{t} = \max \left( {\log \left( {f}_{t}\right) + {m}_{t - 1},\log \left( {i}_{t}\right) }\right) \tag{8}$ ${i}^{\prime }{}_{t} = \exp \left( {\log \left( {i}_{t}\right) - {m}_{t}}\right) = \exp \left( { {\widetilde{\imath }}_{t} - {m}_{t}}\right) \tag{9}$ 其中 ${i}^{\prime }{}_{t}$ 是稳定的输入门，它是原始输入门的重新缩放版本。类似地，遗忘门通过 ${f}^{\prime }{}_{t}$ 进行稳定，这是原始遗忘门的重新缩放版本，如下: ${f}^{\prime }{}_{t} = \exp \left( {\log \left( {f}_{t}\right) + {m}_{t - 1} - {m}_{t}}\right) \tag{10}$ 总结而言，与原始 LSTM 相比，sLSTM 增加了指数门，如方程 5 和 6 所示。此外，通过方程 3 使用归一化，最后通过方程 8、9 和 10 实现的稳定化。这些都为经典 LSTM 提供了显著的改进。

2.2 mLSTM

矩阵长短期记忆(mLSTM)模型 [24] 引入了一种矩阵记忆单元以及用于键值对存储的协方差更新机制，这显著增加了模型的记忆容量。门控机制与协方差更新规则协同工作，以高效管理记忆更新。通过去除隐层到隐层的连接，mLSTM 操作可以并行执行，从而加快训练和推理过程。这些改进使得 mLSTM 在存储和检索信息方面非常高效，非常适合需要大量记忆容量的序列建模任务，如语言建模、语音识别和时间序列预测。mLSTM 代表了递归神经网络的一个显著进步，有效解决了复杂序列建模的挑战。图 2 显示了 mLSTM 的架构。

图 2:mLSTM 的架构

方程 11-19 描述了 mLSTM 的操作 [24]。 ${C}_{t} = {f}_{t}{C}_{t - 1} + {i}_{t}{v}_{t}{k}_{t} \tag{11}$ ${C}_{t}$ 是存储信息的矩阵记忆，其结构比传统 LSTM 中的标量单元状态更复杂。归一化的过程与 sLSTM 类似，如下所示: ${n}_{t} = {f}_{t}{n}_{t - 1} + {i}_{t}{k}_{t} \tag{12}$ ${h}_{t} = {o}_{t} \odot {\widetilde{h}}_{t},{\widetilde{h}}_{t} = g\left( { {C}_{t},{q}_{t},{n}_{t}}\right) = {C}_{t}{q}_{t}/\max \left\{ { {n}_{t}^{\top }{q}_{t},1}\right\} \tag{13}$ 类似于变换器架构，查询 ${q}_{t}$ 、键 ${k}_{t}$ 和值 ${v}_{t}$ 的生成方式如下: ${q}_{t} = {W}_{q}{x}_{t} + {b}_{q} \tag{14}$ ${k}_{t} = \frac{1}{\sqrt{d}}{W}_{k}{x}_{t} + {b}_{k} \tag{15}$ ${v}_{t} = {W}_{v}{x}_{t} + {b}_{v} \tag{16}$ ${i}_{t} = \exp \left( \widetilde{ {i}_{t}}\right) ,\;{\widetilde{i}}_{\mathrm{t}} = {\mathrm{w}}_{i}{\mathrm{x}}_{\mathrm{t}} + {\mathrm{b}}_{\mathrm{i}} \tag{17}$ 其中 ${i}_{t}$ 是输入门，控制新信息的引入到记忆中。遗忘门与 sLSTM 相比略有不同，如下所示。它决定了保留多少先前的记忆 ${C}_{t - 1}$ 。 ${f}_{t} = \sigma \left( {\widetilde{f}}_{t}\right) \text{ OR }\exp \left( {\widetilde{f}}_{t}\right) ,\;{\widetilde{\mathrm{f}}}_{\mathrm{t}} = {\mathrm{w}}_{\mathrm{f}}{\mathrm{x}}_{\mathrm{t}} + {\mathrm{b}}_{\mathrm{f}} \tag{18}$ 输出门在 mLSTM 中也略有不同，如下所示。 ${o}_{t} = \sigma \left( {\widetilde{o}}_{t}\right) ,\;{\widetilde{o}}_{t} = {\mathrm{w}}_{\mathrm{o}}{\mathrm{x}}_{\mathrm{t}} + {\mathrm{b}}_{\mathrm{o}} \tag{19}$ 输出门控制从检索的记忆中传递到隐藏状态的量。

在下一节中，我们将描述如何将 sLSTM 和 mLSTM 适应于时间序列领域。

3. 提出的方法

我们提出的基于 xLSTMTime 的模型结合了多个关键组件，以有效处理时间序列预测任务。图 3 提供了模型架构的概述。

图 3. xLSTMTime - 基于 xLSTM 的时间序列预测模型的数据处理管道

模型的输入是由多个序列组成的时间序列。序列分解模块将输入的时间序列数据分为两个组件，以捕捉趋势和季节性信息。我们按照 [13] 中提出的方法实现该过程，具体描述如下。对于上下文长度为 $L$ 和 $m$ 特征数量，即 $\mathbf{x} \in {\mathbb{R}}^{L \times m}$ 的输入序列，我们通过 1-D 卷积对每个特征应用可学习的移动平均。然后提取趋势和季节性组件如下: ${\mathbf{x}}_{\text{trend }} = \text{ AveragePool }\left( {\operatorname{Padding}\left( \mathbf{x}\right) }\right)$ (20) ${\mathbf{x}}_{\text{seasonal }} = \mathbf{x} - {\mathbf{x}}_{\text{trend }}$ 在分解之后，数据通过线性变换层进行转换，以达到 xLSTM 模块所需的维度。我们进一步进行批量归一化 [26]，以在将数据输入 xLSTM 模块之前提供学习的稳定性。批量归一化是一种深度学习中的变换技术，通过对每层的激活进行归一化，稳定网络输入的分布。它允许更高的学习率，加速训练，并减少对严格初始化和某些形式的正则化(如 Dropout)的需求。通过解决内部协变量偏移，批量归一化提高了网络在各种任务中的稳定性和性能。它引入了最小的开销，每层增加两个可训练参数，使得更深的网络能够更快、更有效地训练。[26]

xLSTM 块包含 sLSTM 和 mLSTM 组件。sLSTM 组件使用标量记忆和指数门控来管理长期依赖关系，并控制适当的历史信息记忆。mLSTM 组件使用矩阵记忆和协方差更新规则来增强存储能力和相关信息检索能力。根据数据集的属性，我们选择 sLSTM 或 mLSTM 组件。对于较小的数据集，如 ETTm1、ETTm2、ETTh1、ETTh2、ILI 和天气，我们使用 sLSTM，而对于较大的数据集，如 Electricity、Traffic 和 PeMS，由于其在时间序列模式学习中的更高记忆容量，选择 mLSTM。来自 xLSTM 块的输出经过另一个线性层。该层进一步转换数据，为通过实例归一化进行最终输出做准备。实例归一化独立作用于时间序列的每个通道。它将每个组件序列中每个通道的数据归一化，使其均值为 0，方差为 1。给定特征图的实例归一化公式如下: ${IN}\left( x\right) = \frac{x - \mu \left( x\right) }{\sigma \left( x\right) } \tag{21}$ 其中 $\mathrm{x}$ 表示输入特征图， $\mu \left( \mathrm{x}\right)$ 是特征图的均值， $\sigma \left( \mathrm{x}\right)$ 是特征图的标准差 [27]。

4. 结果

我们在来自真实世界应用的 12 个广泛使用的数据集上测试了我们提出的基于 xLSTM 的架构。这些数据集包括电力变压器温度(ETT)系列，分为 ETTh1 和 ETTh2(每小时间隔)，以及 ETTm1 和 ETTm2(5 分钟间隔)。此外，我们还分析了与交通(每小时)、电力(每小时)、天气(10 分钟间隔)和流感样疾病(ILI)(每周)相关的数据集。另一个数据集 PeMS(PEMS03、PEMS04、PEMS07 和 PEMS08)交通数据来源于加利福尼亚交通局(CalTrans)绩效测量系统(PeMS)。

表 1. 使用的不同数据集的特征。

每个模型遵循一致的实验设置，预测长度 $\mathrm{T}$ 为 ${ {96},{192},{336},{720}\}$ ，适用于除 ILI 数据集外的所有数据集。对于 ILI 数据集，我们使用预测长度 ${ {24},{36},{48},{60}\}$ 。回顾窗口 $L$ 对于除 ILI 数据集外的所有数据集为 512，对于 ILI 数据集，我们使用 $L$ 为 96 [16]。我们在训练期间使用平均绝对误差(MAE)。在评估中，使用的指标是均方误差(MSE)和平均绝对误差(MAE)。表 2 展示了不同基准的结果，将我们的结果与时间序列领域的最新研究进行了比较。

表 2. 我们的 xLSTMTime 模型与其他模型在时间序列数据集上的比较。

表 2: 多变量长期预测结果，ILI 数据集的预测区间为 $\mathrm{T} = \{ {24}$ ，其他数据集的预测区间为 ${36},{48},{60}\}$ 和 $\mathrm{T} = \{ {96},{192},{336},{720}\}$ 。最佳结果用红色突出显示，次佳结果用蓝色表示。数值越低越好。

从表2可以看出，对于绝大多数基准测试，我们的表现优于现有方法。只有在电力和ETTh2的情况下，在少数预测长度上，我们的结果是第二好。

图4和图5显示了几个数据集的实际与预测时间序列值的图形。可以看出，我们的模型在很大程度上很好地学习了数据的周期性和变化。

图4. 使用我们的模型对交通数据集进行的预测与实际值的比较，使用了 $\mathrm{L} = {512}$ 和 $\mathrm{T} = \{ {192},{336}\}$ 。

图5. 使用我们的模型对ettm1数据集进行的预测与实际值的比较，使用了 $\mathrm{L} = {512}$ 和 $\mathrm{T} = \{ {192},{336}\}$ 。

表3展示了PeMS数据集的比较结果。在与近期最先进模型的比较中，我们的模型产生了最佳或第二最佳的结果。图6显示了一些PeMS数据集的实际与预测图。

表3. 我们的xLSTMTime模型与PEMS数据集上其他模型的比较。所有数据集的多变量预测结果及预测区间 $\mathrm{T} = \{ {12},{24},{48},{96}\}$ ，回顾窗口L=96。最佳结果用红色突出显示，次佳结果用蓝色表示。数值越低越好。

图6. 使用我们的模型对PEMS03和PEMS07数据集进行的预测与实际值的比较，L=96和T={96}。

4. 讨论

最近最有效的时间序列预测模型之一是 Dlinear。当我们将我们的方法与 Dlinear 模型进行比较时，结果表明在各种数据集上都有显著的改进，如表 2 所示。在 Weather 数据集中，最显著的提升为 T=96 时的 ${18.18}\%$ 和 T=192 时的 12.73%。在 Illness 数据集中(T=36 时的 22.62%)和 ETTh2 数据集中(T=192 时的 11.23%)也观察到了显著的改进。这些结果表明，我们的 xLSTMTime 模型在不同预测长度的复杂数据集上始终优于 DLinear。

另一个值得注意的近期时间序列预测模型是 PatchTST。我们 xLSTMTime 模型与 PatchTST 之间的比较揭示了一个微妙的性能格局。在多个场景中，xLSTMTime 在 Weather 数据集上表现出适度但一致的改进，增强幅度从 ${1.03}\%$ 到 ${3.36}\%$ 。在 T=96 和 T=336 的天气预测中观察到了最显著的改进，以及在 ETTh1 数据集的 T=720 中(改进幅度为 1.34%)。在 Electricity 数据集中，xLSTMTime 在较长的预测长度(T=336 和 T=720)上显示出轻微的改进。然而，xLSTMTime 也显示出一些局限性。在 Illness 数据集中，对于较短的预测长度，它的表现比 PatchTST 差 14.78%(针对 $\mathrm{T} = {24}$ )，尽管在 $\mathrm{T} = {60}$ 上超越了 ${3.54}\%$ 。在 ETTh2 数据集中也观察到了混合结果，对于 $\mathrm{T} = {336}$ 的表现不佳，但在其他预测长度上表现更好。有趣的是，对于较长的预测时间范围(T=720)，xLSTMTime 的性能在多个数据集上与 PatchTST 的表现相近或略有超越，差异通常小于 $1\%$ 。这可能归因于 xLSTM 方法更好的长期记忆能力。

总体而言，比较分析表明，虽然 xLSTMTime 在时间序列预测领域与最先进的模型 PatchTST 竞争力极强，但其优势仅限于某些特定数据集和预测长度。此外，它在多个场景中始终优于 DLinear，突显了其稳健性。xLSTMTime 的整体性能特征在大多数情况下相较于 DLinear 和 PatchTST 显示出显著的改进，确立了其在时间序列预测领域的潜力。我们的模型在较长的预测范围内表现出特别的优势，这在一定程度上归因于 xLSTM 的长上下文能力以及我们实现中对季节性和趋势信息的提取。

在将 xLSTMTime 模型与 iTransformer、RLinear、PatchTST、Cross-former、DLinear 和 SCINet 在 PeMS 数据集上进行比较时(表 3)，我们也取得了优越的性能。例如，在 PEMS03 数据集中，对于 12 步预测，xLSTMTime 的均方误差(MSE)约为 $9\%$ 更好，平均绝对误差(MAE)为 $5\%$ 更好。这一趋势在其他预测区间和数据集上持续存在，突显了 xLSTMTime 在多变量预测中的有效性。值得注意的是，xLSTMTime 在几乎所有情况下通常都能取得最佳或第二最佳的结果，强调了其在各种预测场景中的有效性。

5. 结论

在本文中，我们采用了最近增强的 xLSTM 循环架构，该架构在 NLP 领域的时间序列预测中表现出竞争力的结果。由于 xLSTM 具有改进的稳定性、指数门控和更高的记忆容量，提供了潜在的更好的深度学习架构，通过适当地将其适应于时间序列领域，采用系列分解、批量和实例归一化，我们开发了用于长期时间序列预测的 xLSTMTime 架构。我们的 xLSTMTime 模型在与最先进的基于变换器的模型以及其他最近提出的时间序列模型的比较中表现出色。通过对多样化数据集的广泛实验，xLSTMTime 在均方误差 (MSE) 和平均绝对误差 (MAE) 方面显示出优越的准确性，使其成为更复杂模型的可行替代方案。我们强调了 xLSTM 架构在时间序列预测领域的潜力，为更高效和可解释的预测解决方案铺平了道路，并进一步探索使用循环模型的可能性。