面向文本图的大语言模型高效微调与推理

业界资讯 2024-11-04 20:09:37 阅读次数: 0

报告摘要：

文本图是有具有丰富文本信息和拓扑信息的一类数据，例如学术网络、电商数据等。随着大型语言模型（LLMs）的成功，LLMs可以通过最大限度的增强文本编码来显著提升文本图的表现。然而，这些方法的效率仍是一个重大挑战。为此，本文提出了一种高效的参数和内存节约型文本图微调方法，称为ENGINE，使用LLM作为编码器。核心思路是通过可调的侧结构将LLMs和GNN结合，从而显著降低训练复杂度，同时不削弱联合模型的能力。在多个文本图上的广泛实验表明，本文的方法在实现最佳模型性能的同时，训练成本也低于以往方法。其变体的训练速度最多提升12倍，推理速度最高提升5倍，性能只下降1.17%。

研究背景

图1

文本图在现实世界中广泛存在，早期阶段的分析和处理通常通过静态浅层嵌入方法与图神经网络（GNN）的结合，如图1所示。然而，静态嵌入方法在捕捉上下文信息和复杂语义关系方面存在局限，难以充分利用文本属性的丰富性，尤其在图任务中表现受限。

研究问题

图2

近年来，大型语言模型（LLMs）在语言理解方面展现出强大的潜力，能够有效捕捉文本属性的语义丰富性。受此启发，研究人员尝试将LLMs应用于文本图，以提升模型性能，这些方法以级联结构（图2a）或迭代结构（图2b）将LMs与GNN结合。然而，正如大量研究指出的，这些方法存在不足之处，因其在不同阶段分别由LLMs和GNN来编码节点的文本和结构特征，未能实现协同建模。一个显而易见的改进方案是对语言模型和GNN进行联合训练，实现文本和结构特征的共同编码。然而，这种方法带来了效率上的挑战，训练和推理的内存与时间复杂度可能过高，难以被用户接受。因此，本研究的目标是提出一种高效且有效的解决方案，以实现文本图中文本和拓扑信息的联合建模。

研究方法

图3

为应对此问题，本文提出了名为ENGINE的高效微调算法，用于文本图上的大型语言模型。如图3所示，在训练过程中，冻结LLM的参数，并在每层LLM旁添加一个小型可调结构（G-Ladder）。在每个G-Ladder中，采用消息传递以整合结构信息，从而提升节点表示的质量。

图4

G-Ladder的关键优势是类似于Lora的参数高效微调技术，仅更新极小部分参数，从而显著减少内存消耗。此外，ENGINE的参数更新不依赖于LLM的梯度计算，因此可以预计算节点嵌入并将其存储在缓存中以便后续重复使用，从而显著降低训练过程中的时间复杂度，如图4所示。

实验

数据集

本研究使用七个常用的文本图数据集来评估ENGINE的有效性，包括Cora、CiteSeer、WikiCS、OGBN-ArXiv、ArXiv-2023、OGBN-Products（子集）和ElePhoto。这些数据集的原始文本数据来自先前的研究，具体数据集统计信息如表1所示：

表1

性能对比

为评估方法的有效性，本文选择了17个基线方法，分为五类：（i）传统GNN模型，（ii）图Transformer，（iii）基于LM的全微调方法，（iv）文本图最新方法，（v）参数高效微调方法。

ENGINE可以应用于任何LLM，本文主要展示了在LLaMA2-7B上的实验效果，所有实验结果均为五个不同随机种子的平均精度及标准差，实验如表2所示：

表2

从表2可得出以下结论：首先，静态浅层嵌入方法与GNN结合的表现（如GCN、SAGE、GAT）不及结合LM和GNN的最新方法，这表明静态浅层嵌入难以捕捉上下文信息和复杂语义关系，难以充分利用文本属性，导致次优结果。其次，纯LM方法在文本图上的表现不及LM+GNN方法，这表明相比忽略图结构的纯LM方法，结合LM和GNN可以生成更具语义和结构意识的节点嵌入。最后，本文方法在性能上优于现有的LM+GNN方法，尤其在Cora和WikiCS数据集上分别实现了2%和3%的绝对精度提升，并显著超越其他PEFT方法。此外，ENGINE（Early）结合动态提前退出机制，在保持与ENGINE相近的性能的同时，显著提高了推理效率。

效率分析

在训练效率方面，ENGINE通过侧结构将额外可训练参数与冻结的LLM集成，从而可以预计算节点嵌入并缓存以重复使用，提升了训练效率。如表3所示，相较于SimTeG等方法，ENGINE结合缓存机制后实现了12倍的训练加速（从4小时23分钟缩短至21分钟）。在推理效率方面，ENGINE引入动态提前退出机制（ENGINE Early），可根据样本复杂性动态退出，减少LLM层的计算开销，实现5倍的推理速度提升。

表3

结论

本文提出了一个高效且有效的框架，用于将大型语言模型（LLMs）集成至文本图中。其具体设计是在LLM的每一层旁边引入了一个轻量且可调的基于GNN的侧结构（G-Ladder），以显式建模文本图的结构信息。核心思想在于ENGINE的参数更新不依赖于LLM的梯度计算，因此相比于当前的方法具有极高的训练效率。在此基础上，还引入了两种变体：缓存机制和动态提前退出，以进一步提升训练和推理速度。实证研究表明，ENGINE在多个真实文本图数据集上，在性能、训练效率和推理效率方面均优于现有最先进的方法。

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料，现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。