QLoRA(Quantized Low-Rank Adapters)是一种高效的微调技术,用于在消费级硬件(如单张GPU)上微调大语言模型(LLM)。它的核心思想是通过量化(Quantization)和低秩适配器(Low-Rank Adapters)来减少内存占用,同时保持模型的性能。
QLoRA 的关键技术
-
4-bit 量化:使用4-bit NormalFloat (NF4) 量化方法,使得模型占用的显存大幅减少。
-
低秩适配器(LoRA):在原始模型的参数上引入小规模的低秩适配器,只微调这些参数,而不改变原始模型的权重。
-
Paged Optimizers:通过优化内存分页管理,进一步降低显存使用。
QLoRA 的优势
-
降低显存需求:可以在单张消费级 GPU(如 RTX 3090 或 A100 80GB)上微调高达65B参数的模型。
-
性能接近全参数微调:尽管减少了训练的参数量,但实验表明,QLoRA 仍能保持高质量的