大模型-微调技术:DeltaTuning【提出现有PEFT的统一框架;从优化角度解释PEFT的有效性;进行了超大规模的实验】【参数高效微调统一框架】

DeltaTuning

Parameter-efficient fine-tuning of large-scale pre-trained language models | Nature Machine Intelligence

下文中“文章”表示该论文

一句话总结:提出现有PEFT的统一框架;从优化角度解释PEFT的有效性;进行了超大规模的实验;

加性微调主要分两种:adapter,prompt

prompt :文章主要关注于prompt微调参数高效的工作,不讨论model和prompt同时优化的工作。

一个基础的工作是Prefix Tuning,简单地说, 就是原来模型输入的离散的prompt token,会经过transformer block进行self-attention、add&layer_norm、feedforward运算得到中间的隐藏状态向量,现在用一组连续的prefix hidden state代替了这部分prefix输入经过每一层transformer得到的状态向量,优化时只优化这部分参数原模型参数固定。与此同时ÿ

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/131258195