写在前面
大多数 LLM 均采用 Dense(密集) 架构。这意味着,在处理每一个输入 Token 时,模型所有的参数都会被激活和计算。想象一下,为了回答一个简单的问题,你需要阅读整部大英百科全书的每一个字——这显然效率低下。
为了突破 Dense 模型的瓶颈,一种名为 Mixture of Experts (MoE,专家混合) 的架构应运而生,并迅速成为构建前沿 LLM 的关键技术之一。Google 的 GShard、Switch Transformer,开源社区的 Mixtral,以及我们今天重点关注的 DeepSeek 系列模型(尤其是 DeepSeek-V2 的 MoE 特性),都采用了 MoE 思想。
那么,MoE 究竟是什么?它如何实现“人多力量大”的同时又能“按需分配、节省体力”?它相比 Dense 模型有何优势和挑战?本文将以表现出色的 DeepSeek 模型(特别是其 MoE 架构,如 DeepSeek-V2 中体现的)为例,带你深入浅出地理解 MoE 的基本原理。
1. 传统 Dense LLM 的瓶颈:越大越“重”
在深入 M