大模型微调技术：监督微调、参数高效微调、基于人类反馈的强化学习微调

企业开发 2025-04-08 06:55:25 阅读次数: 0

微调（Fine-tuning） 是机器学习中迁移学习的一种关键技术，指在预训练模型的基础上，针对特定任务或数据集进行进一步训练调整的过程。其核心在于利用预训练模型已学习到的通用特征，通过少量数据和计算资源，使模型适应新任务的特定需求。

一、监督微调（Supervised Fine-Tuning，SFT）

1. 冻结（Freeze）监督微调

部分或全部预训练模型的权重被冻结，仅对模型的部分层或新增的附加组件进行训练。比如下面的代码所示：

# 遍历模型的所有参数和名称
for name, param in model.named_parameters():
    # 指定冻结层，（layers.27, layers.26, layers.25, layers.24, layers.23）之外的所有参数
    if not any(nd in name for nd in ["layers.27", "layers.26", "layers.25", "layers.24", "layers.23"]):
        # 将参数的 requires_grad 属性设置为False，即冻结该参数
        param.requires_grad = False

举个例子：

就像孩子已经学会了加减法，你不再让他重新学习这些基础运算（冻结基础运算知识），而是直接教他如何将应用题中的文字信息转化为数学表达式（训练新的解题技巧）。例如，孩子已经很熟练地掌握2+3=5，现在你教他如何解决“小明有2个苹果，小红给了他3个，现在小明有几个苹果？”这类问题。

2.全参数微调（Full Parameter Fine Tuning）

对模型的所有权重进行调整，适用于拥有大量与任务高度相关的高质量训练数据的情况。不依赖开源模型底座知识，基于行业数据重头学习。

3.部分参数微调（Sparse Fine Tuning / Selective Fine Tuning）

仅选择性地更新模型中的某些权重，适用于需要保留大部分预训练知识的情况。

二、参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）

1.LoRA（Low-Rank Adaptation）微调

LoRA 的原理其实并不复杂，它的核心思想是在原始预训练语言模型旁边增加一个旁路，做一个降维再升维的操作，来模拟所谓的 intrinsic rank（预训练模型在各类下游任务上泛化的过程其实就是在优化各类任务的公共低维本征（low-dimensional intrinsic）子空间中非常少量的几个自由参数）。**训练的时候固定预训练语言模型的参数，只训练降维矩阵 A 与升维矩阵 B。**而模型的输入输出维度不变，输出时将 BA 与预训练语言模型的参数叠加。用随机高斯分布初始化 A，用 0 矩阵初始化 B。 这样能保证训练开始时，新增的通路BA=0从，而对模型结果没有影响。

在推理时，将左右两部分的结果加到一起即可，h=Wx+BAx=(W+BA)x， 所以，只要将训练完成的矩阵乘积BA跟原本的权重矩阵W加到一起作为新权重参数替换原始预训练语言模型的W即可，不会增加额外的计算资源。

举个例子：

想象你想教学生们怎样进行快速心算而不去完全打破他们原有的学习方法。你决定只引入一个简化版本的心算技巧，让他们在现有知识的基础上进行少量调整。这就像是把原有的学习方式轻量化处理，只增加所需的少量新知识，而不是重新教授整个数学课程。

LoRA 的最大优势是速度更快，使用的内存更少；因此，可以在消费级硬件上运行。

2.QLoRA（Quantized Low-Rank Adaptation）微调

则是 LoRA 的一个扩展版本，它结合了 LoRA 的低秩适配器和量化技术。QLoRA 进一步优化了计算效率和存储需求，特别是在极端显存受限的环境下。与 LoRA 不同的是， QLoRA 会将插入的低秩适配器层的部分权重进行量化（通常是量化为INT4或INT8），在保持性能的同时显著降低模型的存储和计算需求。

举个例子：

针对学生中一些学习资源（如时间或精力）更加有限的情况，你进一步优化教学方法，不仅简化了学习内容（类似LoRA），同时还用了一些有助于记忆的技巧（比如使用图像或口诀），从而更有效地传授知识。这样，每个学生能在有限时间内学会心算法。在技术上，QLoRA涉及量化（quantization）技术，将模型的一部分权重参数存储在较低精度的数值格式中，以此减少内存使用和计算量，同时结合LoRA的低秩调整，让适应过程更加高效。

3.Prompt Tuning微调

Prompt Tuning的出发点，是基座模型(Foundation Model)的参数不变，为每个特定任务，训练一个少量参数的小模型，在具体执行特定任务的时候按需调用。

Prompt Tuning的基本原理是在输入序列X之前，增加一些特定长度的特殊Token，以增大生成期望序列的概率。

具体来说，就是将X = [x1, x2, …, xm]变成，X = [x1, x2, ..., xk; x1, x2, …, xm], Y = WX`。

如果将大模型比做一个函数：Y=f(X)，那么Prompt Tuning就是在保证函数本身不变的前提下，在X前面加上了一些特定的内容，而这些内容可以影响X生成期望中Y的概率。

4.P-tuning v2微调

Prefix Tuning的灵感来源是，基于Prompt Engineering的实践表明，在不改变大模型的前提下，在Prompt上下文中添加适当的条件，可以引导大模型有更加出色的表现。

Prefix Tuning的出发点，跟Prompt Tuning的是类似的，只不过它们的具体实现上有一些差异。Prompt Tuning是在Embedding环节，往输入序列X前面加特定的Token。而Prefix Tuning是在Transformer的Encoder和Decoder的网络中都加了一些特定的前缀。

具体来说，就是将Y=WX中的W，变成W = [Wp; W]，Y=WX。

举个例子：

假设你有一个已经会弹很多曲子的钢琴家，但他需要为一首新曲子调整演奏风格。他不会重新学习钢琴的基本指法（不改变模型主体权重），而是在演奏前先弹一段特定的音阶（可学习的prompt嵌入），让自己的手指更适应新曲子的节奏和感觉。