Knowledge Distillation(KD) 知识蒸馏

2015年由Hinton提出这个概念

知识蒸馏与模型压缩的关系

知识蒸馏是模型压缩的一种方法

模型压缩还有其他方法,如低秩近似(low-rank Approximation),网络剪枝(network pruning),网络量化(network quantization)等

Hard-target 和 Soft-target

soft target相对于hard target,携带更多更多有用的信息

其中 Pi 是每个类别输出的概率,Zi 是每个类别输出的 logits,T 就是温度。当温度 T=1 时,这就是标准的 Softmax 公式。 T越高,softmax 的output probability distribution越趋于平滑,其分布的熵越大,负标签携带的信息会被相对地放大,模型训练将更加关注负标签。


 

猜你喜欢

转载自blog.csdn.net/hxxjxw/article/details/115256742
今日推荐