多老师知识蒸馏模型——Anomaly detection based on multi-teacher knowledge distillation

基于最基础的老师-学生知识蒸馏模型。

首先在数据预处理时,关于裁剪图像,小一点的还好说,但大图像如果缩小,异常区域也会跟着变小,就会变得难检查。为此,在训练时,我们将正常图随机切割。在检测时,我们用重叠切割的方法,这样可以避免将异常区域分成几块。

第一点,尝试将单老师模型修改成多老师模型,这是因为每个老师网络的结构不同,可能适合不同种类图像的检测,例如Resnet152和Vgg19擅长处理纹理图像,Densenet210更好处理的物体图像。当我们把多个老师网络结合在一起,训练出的学生模型就能同时具备各个网络结构的优点,能够处理不同种类的图像。

如何将多个教师网络结合在一起,我们引入了一组权重w_{k},计算公式是这样的:

 整体结构是这样的:

值得一提的是,在训练过程中,老师网络已经不用更新,需要更新参数的是那一组权重和decoder 

第二点,在误差函数中引入重构图误差一项,特征误差在图像上有更深层的信息,更有利于语义异常检测。而重构误差具有较详细的信息,有利于像素异常检测。这样老师网络和学生网络就同时具备了处理语义异常2和像素异常的检测。

第三点,在计算特征误差时,除了我们熟悉的MSE均方误差外,还添加了cossim函数,目的是不断迭代优化使老师网络产生的特征值与学生网络产生的特征值方向越来越接近。

第四点,额外的,不仅仅使用多老师网络,学生网络也可以有多个。 

第五点,检测时异常分数往往 有三部分组成,接下来有两种处理方式:

将这三部分放缩到同一大小范围

或者分配三者的权重大小


​​​​​​​

 

猜你喜欢

转载自blog.csdn.net/weixin_62375715/article/details/130167535
今日推荐