202404 arxiv
LoRA的改进
1 Lora的问题
过低的秩会严重限制模型学习和记忆新知识的能力,尤其在需要获取大量领域知识的任务上
2 mora
- MoRA的关键在于使用方阵M取代LoRA的低秩矩阵A和B,以提升rank
- 假设原权重矩阵W的维度为d×k
- Lora的参数量为(d+k)r,rank为r
- 相同参数量下,MoRA的rank为
- 假设原权重矩阵W的维度为d×k
- 至于压缩算子,论文给出了多种方法
-
截断:直接截取部分维度
-
共享:维度合并,共享同一个方阵M的值
-
解耦:将输入reshape为矩阵,然后与M做矩阵乘法
-
旋转:在解耦的基础上引入旋转矩阵,增强表达能力
-