大模型-微调技术：DeltaTuning【提出现有PEFT的统一框架；从优化角度解释PEFT的有效性；进行了超大规模的实验】【参数高效微调统一框架】

DeltaTuning

Parameter-efficient fine-tuning of large-scale pre-trained language models | Nature Machine Intelligence

下文中“文章”表示该论文

一句话总结：提出现有PEFT的统一框架；从优化角度解释PEFT的有效性；进行了超大规模的实验；

加性微调主要分两种：adapter，prompt

prompt ：文章主要关注于prompt微调参数高效的工作，不讨论model和prompt同时优化的工作。

一个基础的工作是Prefix Tuning，简单地说，就是原来模型输入的离散的prompt token，会经过transformer block进行self-attention、add&layer_norm、feedforward运算得到中间的隐藏状态向量，现在用一组连续的prefix hidden state代替了这部分prefix输入经过每一层transformer得到的状态向量，优化时只优化这部分参数原模型参数固定。与此同时ÿ

大模型-微调技术：DeltaTuning【提出现有PEFT的统一框架；从优化角度解释PEFT的有效性；进行了超大规模的实验】【参数高效微调统一框架】

DeltaTuning

加性微调主要分两种：adapter，prompt

猜你喜欢