Calibrating the Rigged Lottery: Making All Tickets Reliable

ICLR2023| Calibrating the Rigged Lottery: Making All Tickets Reliable

论文链接：https://openreview.net/pdf?id=KdwnGErdT6
源码链接：https://github.com/stevenboys/cigl

简介

虽然稀疏学习在各种深度学习任务上减少内存和减少推断时间上取得了成功，产生的稀疏模型的可靠性仍然是没有探索的。先前的研究表明深度神经网络往往过于自信，本文发现稀疏学习加剧了这个问题。

使用较多的模型预测可靠性指标是Expected Calibration Error（ECE），测量模型预测的置信度与模型精度间差异。且ECE值越小意味着越高的置信度。模型过于自信的问题是太自信以至于不能注意到不正确的决策，使在例如自动医疗和自动驾驶等现实应用中的安全问题。

本文首次研究稀疏学习中的可靠性问题。首先解决目前稀疏学习有多可靠的问题。

本文方法

本文提出一种新的稀疏学习方法，CigL，改善产生稀疏模型的置信度矫正，并同时维持相当甚至更高的精度。特别地，本文方法CigL从一个随机稀疏网络开始，使用两个掩码控制稀疏拓扑，之后探索权重空间。两个掩码称为确定性掩码（deterministic mask）和随机掩码（Random mask）。前者周期性得更新决定非0权重，后者在每个周期随机抽样。

确定性掩码和随机掩码

Deterministic mask 目标是寻找性能良好的稀疏模型控制全部稀疏拓扑。该掩码决定哪个权重应该被激活。借鉴广泛使用的稀疏学习方法RigL，本文认为幅度值较大的权重和梯度有利于损失函数减少和对应权重位置应该被激活。因此本文方法CigL也在固定周期 $\Delta T$ 移除一定比例小幅度值的权重并激活一部分有大梯度幅度值的权重。

Random Mask 允许模型在稀疏约束条件下更好地探索权重空间。在反向传播之前的每次迭代中，从伯努利分布中随机抽取掩码。以这种方式，掩码随机地选择要临时停用的非零权重的一部分，并迫使模型在权重空间的其他方向上探索更多，这在权重更新步骤中增加了更多的随机性，并导致与一个掩码策略相比更好地探索权重空间。

稀疏设定 确定性掩码复杂输出稀疏模型的整体稀疏度。假设想要一个95%稀疏度的网络，确定性掩码也要有相同的稀疏度，只有5%的元素为1。另外随机掩码在训练过程中去激活一些非零权重，从而产生一些稀疏性增加的临时模型。由于高稀疏度模型对稀疏度增加铭感，本文对随机掩码设置了一个低稀疏度。这样的设置使稀疏度增加不显著且在临时模型中性能没有显著下降。

权重&掩码平均化

基于前面提到的两种掩码，本文提出一种获得改进置信度校准且相当精度的稀疏模型的权重与掩码平均化策略。该策略主要流程为：

迭代更新两个掩码和模型权重。与广泛使用的稀疏学习方法一致，确定性掩码在训练过程结束时停止更新

扫描二维码关注公众号，回复： 17001209 查看本文章
从伯努利分布中连续抽取不同的随机掩码，并在设置的 $t$ 之后每个周期收集一堆稀疏权重和稀疏掩码 ${Z^{(t)},W^{(t)}\}$ 。
通过这些采样，可以得到很多有不同权重值和不同稀疏拓扑的临时稀疏模型 $Z^{(t)}\odot W^{(t)}$ 。这比一般单一掩码训练方法可以获得更多的关于权重空间的知识。
通过平均化这些临时稀疏模型的权重输出单一稀疏模型。