文章目录
1 蒸馏技术
1.1 技术背景
最近大火的DeepSeek团队发布的DeepSeek-R1,其670B参数的大模型通过强化学习与蒸馏技术,成功将能力迁移至7B参数的轻量模型中。 蒸馏后的模型超越同规模传统模型,甚至接近OpenAI的顶尖小模型OpenAI-o1-mini。
在人工智能领域,大型语言模型(如GPT-4、DeepSeek-R1)凭借数千亿级参数,展现出卓越的推理与生成能力。然而,其庞大的计算需求与高昂的部署成本,严重限制了其在移动设备、边缘计算等场景的应用。
如何在不损失性能的前提下压缩模型规模?知识蒸馏(Knowledge Distillation)就是解决这个问题的一种关键技。
1.2 知识蒸馏是什么
知识蒸馏(Knowledge Distillation,简称KD)是由AI领域的三位大佬Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2015年提出的技术,旨在通过将复杂教师模型的知识迁移到较简单的学生模型中,使学生模型在保持高性能的同时,能够