三种训练方式的区别
-
SFT(Supervised Fine-Tuning,监督微调训练)
- 原理: 采用有监督学习方式,使用人工标注的输入-输出对(如问题-答案)进行训练,让模型更符合特定任务需求。
- 适用场景: 适用于通用任务微调,如问答、翻译、代码生成等。
- 优缺点:
- ✅ 训练数据清晰,收敛速度快,适合任务适配。
- ❌ 依赖高质量人工标注数据,容易过拟合,不适应真实用户偏好。
-
DPO(Direct Preference Optimization,直接偏好优化)
- 原理: 采用人类偏好数据,通过奖励模型(Reward Model, RM)指导训练,让模型生成更符合用户偏好的结果。不同于传统 RLHF(强化学习人类反馈),DPO直接优化偏好,而不需要强化学习步骤(如 PPO)。
- 适用场景: 适用于优化模型输出质量,如减少胡言乱语(hallucination)、增加可读性或减少攻击性等。
- 优缺点:
- ✅ 不需要复杂的强化学习过程,计算开销小。
- ✅ 可直接使用偏好数据进行优化,提高用户满意度。
- ❌ 需要高质量偏好数据,且偏好学习结果受数据影响大。
-
CPT(Continued Pre-Training,继续预训练)
- 原理: 继续在大规模无监督文本数据(如行业领域数据)上进行自回归语言建模(如GPT)或自监督训练(如BERT)。
- 适用场景: 适用于模型领域适配,如法律、医学、金融等。
- 优缺点:
- ✅ 可以显著提升特定领域的知识掌握能力。
- ❌ 训练成本较高,数据要求较大,可能会丢失部分通用知识。
其他训练方式
除了 SFT、DPO 和 CPT,还有一些常见的训练方法:
-
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)
- 方法: 结合人类反馈训练奖励模型(RM),然后使用强化学习(如 PPO)优化语言模型的输出质量。
- 适用场景: 需要严格符合人类反馈的任务,如聊天助手、道德审查、对齐训练(alignment)。
- 优缺点:
- ✅ 可大幅优化模型输出的可控性和安全性。
- ❌ 训练复杂,计算资源需求大。
-
LoRA(Low-Rank Adaptation,低秩适配)
- 方法: 通过减少训练参数的方式进行高效微调,仅更新部分权重矩阵,减少计算开销。
- 适用场景: 资源受限的情况下进行轻量化模型微调,如个性化模型定制。
- 优缺点:
- ✅ 计算量小,可在低资源设备上进行微调。
- ❌ 适用于增量调整,不适合大规模结构变更。
-
QLoRA(Quantized LoRA,量化低秩适配)
- 方法: 在 LoRA 基础上引入量化技术(如4-bit),降低计算需求并减少显存占用。
- 适用场景: 适用于在消费级 GPU(如 RTX 3090)上进行高效微调。
- 优缺点:
- ✅ 显存占用更低,适合大模型训练。
- ❌ 可能影响部分权重表达能力,精度下降。
-
P-Tuning / Prompt Tuning
- 方法: 通过优化前缀提示(prompt)而非全部模型参数,使模型在特定任务上更具表现力。
- 适用场景: 适用于任务适配,如情感分类、问答、NER等。
- 优缺点:
- ✅ 训练成本低,可适配多个任务。
- ❌ 适用场景较为局限。
-
Prefix Tuning
- 方法: 通过学习一个可训练的前缀向量,而不微调整个模型,适用于特定任务调整。
- 适用场景: 适用于多任务或低资源微调。
- 优缺点:
- ✅ 计算量小,适合任务迁移。
- ❌ 不适用于大规模架构调整。
总结
训练方式 | 训练目标 | 适用场景 | 计算开销 | 适应性 |
---|---|---|---|---|
SFT | 任务微调 | QA、翻译、代码生成 | 中 | 中 |
DPO | 优化偏好 | 用户满意度提升 | 低 | 高 |
CPT | 继续预训练 | 特定领域适配 | 高 | 低 |
RLHF | 任务对齐 | 对齐训练、道德审查 | 高 | 高 |
LoRA | 低秩适配 | 资源受限微调 | 低 | 中 |
QLoRA | 量化微调 | 轻量级模型优化 | 低 | 中 |
P-Tuning | Prompt 训练 | 任务适配 | 低 | 低 |
Prefix Tuning | 前缀优化 | 任务迁移 | 低 | 低 |
如果你的目标是:
- 微调任务 → SFT
- 优化用户偏好 → DPO
- 增强领域知识 → CPT
- 对齐人类反馈 → RLHF
- 减少训练开销 → LoRA/QLoRA
- 任务适配 → P-Tuning / Prefix Tuning
你目前在研究 法律问答、智能客服、金融/法律 AI,如果要优化现有模型,可以考虑:
扫描二维码关注公众号,回复:
17553686 查看本文章

- CPT → 继续预训练法律领域语料,让模型具备更强法律知识。
- SFT → 通过法律问答数据集进行微调,提升专业问答能力。
- DPO → 结合用户反馈优化回答质量,让回复更符合法律法规和逻辑。
如果硬件资源受限,可以使用 LoRA/QLoRA 进行高效训练。