2015年由Hinton提出这个概念
知识蒸馏与模型压缩的关系
知识蒸馏是模型压缩的一种方法
模型压缩还有其他方法,如低秩近似(low-rank Approximation),网络剪枝(network pruning),网络量化(network quantization)等
Hard-target 和 Soft-target
soft target相对于hard target,携带更多更多有用的信息
其中 Pi 是每个类别输出的概率,Zi 是每个类别输出的 logits,T 就是温度。当温度 T=1 时,这就是标准的 Softmax 公式。 T越高,softmax 的output probability distribution越趋于平滑,其分布的熵越大,负标签携带的信息会被相对地放大,模型训练将更加关注负标签。
扫描二维码关注公众号,回复: 13145723 查看本文章![]()
Knowledge Distillation(KD) 知识蒸馏
猜你喜欢
转载自blog.csdn.net/hxxjxw/article/details/115256742
今日推荐
周排行