DeltaTuning
下文中“文章”表示该论文
一句话总结:提出现有PEFT的统一框架;从优化角度解释PEFT的有效性;进行了超大规模的实验;
加性微调主要分两种:adapter,prompt
prompt :文章主要关注于prompt微调参数高效的工作,不讨论model和prompt同时优化的工作。
一个基础的工作是Prefix Tuning,简单地说, 就是原来模型输入的离散的prompt token,会经过transformer block进行self-attention、add&layer_norm、feedforward运算得到中间的隐藏状态向量,现在用一组连续的prefix hidden state代替了这部分prefix输入经过每一层transformer得到的状态向量,优化时只优化这部分参数原模型参数固定。与此同时ÿ