面向文本图的大语言模型高效微调与推理

报告摘要:

文本图是有具有丰富文本信息和拓扑信息的一类数据,例如学术网络、电商数据等。随着大型语言模型(LLMs)的成功,LLMs可以通过最大限度的增强文本编码来显著提升文本图的表现。然而,这些方法的效率仍是一个重大挑战。为此,本文提出了一种高效的参数和内存节约型文本图微调方法,称为ENGINE,使用LLM作为编码器。核心思路是通过可调的侧结构将LLMs和GNN结合,从而显著降低训练复杂度,同时不削弱联合模型的能力。在多个文本图上的广泛实验表明,本文的方法在实现最佳模型性能的同时,训练成本也低于以往方法。其变体的训练速度最多提升12倍,推理速度最高提升5倍,性能只下降1.17%。

01

研究背景

img

图1

文本图在现实世界中广泛存在,早期阶段的分析和处理通常通过静态浅层嵌入方法与图神经网络(GNN)的结合,如图1所示。然而,静态嵌入方法在捕捉上下文信息和复杂语义关系方面存在局限,难以充分利用文本属性的丰富性,尤其在图任务中表现受限。

02

研究问题

img

图2

近年来,大型语言模型(LLMs)在语言理解方面展现出强大的潜力,能够有效捕捉文本属性的语义丰富性。受此启发,研究人员尝试将LLMs应用于文本图,以提升模型性能,这些方法以级联结构(图2a)或迭代结构(图2b)将LMs与GNN结合。然而,正如大量研究指出的,这些方法存在不足之处,因其在不同阶段分别由LLMs和GNN来编码节点的文本和结构特征,未能实现协同建模。一个显而易见的改进方案是对语言模型和GNN进行联合训练,实现文本和结构特征的共同编码。然而,这种方法带来了效率上的挑战,训练和推理的内存与时间复杂度可能过高,难以被用户接受。因此,本研究的目标是提出一种高效且有效的解决方案,以实现文本图中文本和拓扑信息的联合建模。

03

研究方法

img

图3

为应对此问题,本文提出了名为ENGINE的高效微调算法,用于文本图上的大型语言模型。如图3所示,在训练过程中,冻结LLM的参数,并在每层LLM旁添加一个小型可调结构(G-Ladder)。在每个G-Ladder中,采用消息传递以整合结构信息,从而提升节点表示的质量。

img

图4

G-Ladder的关键优势是类似于Lora的参数高效微调技术,仅更新极小部分参数,从而显著减少内存消耗。此外,ENGINE的参数更新不依赖于LLM的梯度计算,因此可以预计算节点嵌入并将其存储在缓存中以便后续重复使用,从而显著降低训练过程中的时间复杂度,如图4所示。

04

实验

数据集

本研究使用七个常用的文本图数据集来评估ENGINE的有效性,包括Cora、CiteSeer、WikiCS、OGBN-ArXiv、ArXiv-2023、OGBN-Products(子集)和ElePhoto。这些数据集的原始文本数据来自先前的研究,具体数据集统计信息如表1所示:

表1img

性能对比

为评估方法的有效性,本文选择了17个基线方法,分为五类:(i)传统GNN模型,(ii)图Transformer,(iii)基于LM的全微调方法,(iv)文本图最新方法,(v)参数高效微调方法。

ENGINE可以应用于任何LLM,本文主要展示了在LLaMA2-7B上的实验效果,所有实验结果均为五个不同随机种子的平均精度及标准差,实验如表2所示:

表2img

从表2可得出以下结论:首先,静态浅层嵌入方法与GNN结合的表现(如GCN、SAGE、GAT)不及结合LM和GNN的最新方法,这表明静态浅层嵌入难以捕捉上下文信息和复杂语义关系,难以充分利用文本属性,导致次优结果。其次,纯LM方法在文本图上的表现不及LM+GNN方法,这表明相比忽略图结构的纯LM方法,结合LM和GNN可以生成更具语义和结构意识的节点嵌入。最后,本文方法在性能上优于现有的LM+GNN方法,尤其在Cora和WikiCS数据集上分别实现了2%和3%的绝对精度提升,并显著超越其他PEFT方法。此外,ENGINE(Early)结合动态提前退出机制,在保持与ENGINE相近的性能的同时,显著提高了推理效率。

效率分析

在训练效率方面,ENGINE通过侧结构将额外可训练参数与冻结的LLM集成,从而可以预计算节点嵌入并缓存以重复使用,提升了训练效率。如表3所示,相较于SimTeG等方法,ENGINE结合缓存机制后实现了12倍的训练加速(从4小时23分钟缩短至21分钟)。在推理效率方面,ENGINE引入动态提前退出机制(ENGINE Early),可根据样本复杂性动态退出,减少LLM层的计算开销,实现5倍的推理速度提升。

表3img

05

结论

本文提出了一个高效且有效的框架,用于将大型语言模型(LLMs)集成至文本图中。其具体设计是在LLM的每一层旁边引入了一个轻量且可调的基于GNN的侧结构(G-Ladder),以显式建模文本图的结构信息。核心思想在于ENGINE的参数更新不依赖于LLM的梯度计算,因此相比于当前的方法具有极高的训练效率。在此基础上,还引入了两种变体:缓存机制和动态提前退出,以进一步提升训练和推理速度。实证研究表明,ENGINE在多个真实文本图数据集上,在性能、训练效率和推理效率方面均优于现有最先进的方法。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

猜你喜欢

转载自blog.csdn.net/python1234_/article/details/143482770