老婆问我:“什么是大模型的“蒸馏”?”

最近,老婆刷到一条新闻:“科学家用大模型‘蒸馏’出小模型,效果堪比原版!”她一脸懵地问我:AI 模型还能像酿酒一样“蒸馏”?难道要架个锅炉煮代码?

我乐了:蒸馏不是真用火烤,而是一种“知识搬运术”——把笨重的大模型(比如 1000 亿参数)的“智慧精华”,浓缩到一个轻巧的小模型(比如 1 亿参数)里。就像把一整本百科全书的知识,压缩成一张学霸的笔记,既便携又够用。

她更疑惑了:直接用小模型不行吗?为啥非要折腾“蒸馏”?

其实背后有个关键问题:大模型虽强,但普通人根本用不起。大模型的强悍能力背后,是普通人难以想象的“贵族式开销”。以行业常用的NVIDIA A100显卡为例:

  • 单卡价格:约10-15万元(根据供需波动,高峰期炒到20万+)

  • 基础配置成本:要流畅运行千亿参数大模型,至少需要8张A100组成集群 → 仅硬件投入就超100万元。这还不算配套的服务器、散热系统、电费(单卡功耗300瓦,8卡每小时耗电≈2.4度,一天电费近200元)。

换句话说,假如让 D