Teaching with Soft Label Smoothing for Mitigating Noisy Labels in Facial Expressions
公众号:EDPJ
目录
2.1 面部表情识别(Facial Expression Recognition,FER)
3.3 软标签平滑(Soft Label Smoothing,SLS)
0. 摘要
最近的研究突出了面部表情数据集中的噪声标签的问题。这些具有不确定性的标签的产生原因:模棱两可的面部表情、低质量表情图片、标注者对模棱两可表情的主观意向、等等。为了解决噪声标签的问题,本文提出了软标签平滑(Soft Label Smoothing,SLS):对于高可信度的类别,基于其可信度分配给其一个概率;对于低可信度的类别,分配给其一个固定的低概率。特别地,本文提出了一个用于teaching的平滑操作框架(the Smooth Operator Framework for Teaching),该框架基于mean-teacher(MT)架构,其中的teacher logits使用了SLS。研究发现,经过平滑的teacher logits为student提供了更好的参考,从而促使整体性能的提升。
1. 简介
早期研究表明:使用标签分布(不同标签有不同强度)而不是使用one-hot标签来表示真实标签,有助于缓和噪声标签的影响。直观地,面部表情通常是复合的(例如:一个表情可以同时表现出生气和伤心),而是用标签分布可以更好的描述复杂的表情。因此,研究者们提出了标签分布学习(label distribution learning,LDL),标签增强(label enhancement,LE)以及标签平滑正则化(label smoothing regularization,LSR)。虽然LDL、LE、LSR的目标相似,但LSR是分析的形式,因此更适合对比。
本文的主要发现是:在有噪声标签的情况下,通过平滑logits,可以提升面部表情识别(facial expression recognition,FER)的性能。虽然LSR也能用于平滑logits,它与SLS的不同点在于它只给置信度最高的类别分配高概率。SLS是实例级的(不同的样本有不同的分布),而LSR是类别级的。
Mean-teacher(MT)架构:通过teacher logits和student logits的差异来检测噪声标签。基于MT的成功,作者推测MT网络可以抵抗噪声标签,teacher通过保留历史信息来监督student(teacher基于student网络的exponential moving average进行更新)。
综上,本文贡献如下:
- 提出了一个新框架:用于teaching的平滑操作框架(Smooth Operator Framework for Teaching,SOFT),从而缓和噪声标签对面部表情识别(facial expression recognition,FER)的影响。SOFT由一个mean-teacher(MT)组成,其中的teacher logits使用了软标签平滑(Soft Label Smoothing,SLS)。
- 本文方法简单,不需要额外的数据集,也不需要标签分布标注(就像LDL中的那样),因此在训练时不会有额外的计算。
- 对于不同级别的噪声标签,本研究在FER上都有较好的性能。
上图是对teacher的预测单元使用SLS后生成的标签分布。给定的真实one-hot标签标记为红色。从左到右的Su, Fe, Di, Ha, Sa, An, Ne分别表示惊喜(Surprise), 恐惧(Fear), 厌恶(Disgust), 高兴(Happiness), 伤心(Sadness), 生气(Anger), 中立(Neutral)。对于第一行(a),SLS生成的标签分布可以更好地描述复合的表情,尽管置信度最高的类别并没有对应于真实标签。对于第二行(b),置信度最高的类别正确预测了真实标签,而相比于只使用一种表情,标签分布可以更好地描述面部表情。
2. 相关工作
2.1 面部表情识别(Facial Expression Recognition,FER)
FER算法可以分为两个类别:人为制作的、基于学习的.
传统的基于人为制作特征的方法有:SIFT,HOG,Histograms of local binary patterns,Gabor wavelet coefficients。
随着深度学习的发展,基于学习的方法成为主流且有更好的性能。
- 一些人使用双流网络(two stream network)把面部图像与landmarks和光流(optical flows)融合。
- 一些人利用了使人印象深刻的表情与中立(Neutral)表情的的差异性。
- 最近,Ruan使用CNN提取基础特征,这些特征被分解成面部动作隐(latent)特征,从而有效的表示不同表情之间的相似性。
然而,上述的这些方法都没有解决噪声标签以及表情模棱两可的问题。
2.2 使用噪声标签(Noisy Labels)学习
基于噪声标签的深度学习已经被广泛研究。
- 一个方法是为网络添加噪声自适应层(noise adaptation layer),从而学习标签转移矩阵(label transition matrix)或者生成一个专门的结构。
- 另一个方式是研究正则化(regularization)的方法从而提升泛化能力(generalizability)。显式的正则化(例如,dropout、weight decay)更改了训练loss;隐式的正则化(例如,augmentation、label smoothing)阻止model把所有的概率分配给带有噪声标签的样本。在训练时减少过拟合(overfitting)可以提升对噪声标签的鲁棒性(robustness)。
- 其他的方法提议容忍噪声的loss function,例如:absolute mean error、generalized cross entropy;或者一些更改loss值的方法,例如:loss correction、loss reweighting、label refurbishment。
- 其他的核心思想是样本选择:从有噪数据集中选出干净的样本,且只用这些样本更新网络。该方法与其他方法结合有很好的性能。
标签分布学习(LDL)和标签增强(LE)可以缓解一些相关工作(例如,头部姿态、面部年龄识别)中模棱两可的问题。
Zhou et al. 第一个提出了解决这个问题的方法:使用情绪分布学习学会了把表情图像映射为情绪分布。
为了解决标签分布不可获得的问题,Xu et al. 提出了使用one-hot标签的LE方法。然而,由于k-NN搜索,该方法有很高的时间复杂度,从而限制了用于训练的数据集的大小。
Zeng et al. 解决了FER数据集中标注不连续的问题。他用人工标注的方法为每一张图像添加多个标签,并预测一个伪(pseudo)标签。然后从不连续的伪标签中学习一个模型(IPA2LT)来匹配隐藏的真实标签。
Wang et al. 解决了样本不确定性的问题。他学习了一个不确定性分数(uncertainty score),然后尝试使用重标注(relabel)的方法改正噪声标签。然而,该方法没有考虑复合表情。此外,该方法把不连续性看做噪声,且忽视了由模棱两个面部表情导致的噪声标签。
Chen et al. 构建了一个用于学习标签分布的最近邻图(nearest neighbor graphs),它需要额外的数据集进行辅助。
为了解决模棱两可的问题,She et al. 提出了Distribution Mining and the pairwise Uncertainty Estimation(DMUE):构建了与类别数目相同的辅助分支,从而学习样本的标签分布。
3. 方法
3.1 背景和标注
给定FER的labelled dataset,类别C的每个样本都有一个one-hot标签。然而,对于一个有噪声标签的数据集,这个标签可能是错的或者模棱两可的。
标签平滑(Label Smoothing)。标签平滑正则化(Label Smoothing Regularization,LSR)被广泛用于正则化,从而改进泛化以及标定(calibration)。
当使用LSR时,one-hot标签被修改为多个可能标签混合的标签。给定one-hot标签
,LSR生成,表示为:
其中,是用于平滑分布的超参数,是真实标签类别的索引。
Mean-teacher。该架构原本是在semi-supervised learning中使用的。作者对其调整从而能处理FER中噪声标签的问题。有相同结构的两个网络(teacher、student)被迫输出相同的预测,输入时会引入随机噪声(通过dropout layer或者random augmentation,在本文中使用后者)。
如上图所示,teacher和student network的输入是一样的。它们的输出由一致性loss联系在一起;此外,Student network的输出由给定的标签通过分类loss(cross entropy)监督。Student network还有一个不确定性模块(uncertainty module),用于预测不确定性分数(uncertainty score)。该分数用于对分类loss加权。
3.2 本文方法总览
本文使用的基于mean-teacher的结构如上图所示,给定的真实标签混有噪声,噪声的比率未知。本文用SLS提升teacher单元。Student由一个不确定性模块组成。该模块预测一个用于计算加权的交叉熵损失的不确定性分数(weighted cross entropy,WCE)。在测试的时候,不确定性模块被移除。无论是teacher还是student,在验证集上性能最好的一个就可以用于推断。
3.3 软标签平滑(Soft Label Smoothing,SLS)
SLS保留了可信度最高的 k 个预测,并把其余低可信度的预测平均。对于一个样本,标记logits为,然后可以获得一个分布向量。定义 k 为超过门限的元素的数目,表示为:
其中,表示艾佛森括号(Iverson brackets,是一种用方括号记号,如果方括号内的条件满足则为1,不满足则为0)。SLS可以表示为:
当样本的 k=1 时,SLS与LSR相同。在本文框架中,对teacher单元试用SLS。教师网络的权重,只使用基于student网络的指数移动平均权重(exponential moving average,EMA)更新:
其中, 表示衰减率。
3.4 Loss Funchtion
一致性损失(Consistency Loss)。学生受限于一致性损失,该损失由学生单元与使用了SLS的老师单元的的软标签之间的KL散度表示:
Logit加权的交叉熵损失(LogitWeighted Cross-Entropy Loss)。对于样本,由backbone网络产生的特征向量表示为。把该向量输入学生网络的不确定性模块获得不确定性分数。表示为:
其中表示线性层的参数。由logit加权的交叉熵损失表示为:
其中,表示类别 i 的索引。表示样本 i 的第 j 个类别的logit。
总损失。训练学生网络的总损失表示为:
其中,是控制一致性损失贡献度的权重。
4. Experiment
4.1 Datasets
三个数据集:RAF-DB,AffectNet,FERPlus。
因为数据集中的噪声标签未知,为了评估本文方法的降噪性能,向其中加入了合成的噪声标签。特别地,用标签转移矩阵 T 把每一个原始的标签 y 转换为,其中,。使用两种噪声:对称(例如:均匀分布的)的和非对称的(例如:依赖于类别的)。对于对称噪声,一个标签被随机的转换为另一个标签。非对称噪声是把一个标签转换为令人困惑的标签(该标签可由困惑矩阵辨认)。
4.2 实现细节
首先用MTCNN检测排列面部图像。然后把他们重整为224*224像素。然后用随机裁剪和水平翻转增强他们。
至于backbone网络,使用常用的用FER的ResNet-18。为公平对比,在MS-Celeb-1M上对backbone网络用标准路径预训练。
学生网络使用Adam optimizer训练。
4.3 消融实验
SLS效果。在没有特别说明时,所有的实验都是在添加了30%对称噪声的RAF-DB上进行。其他的实验,包括非对称噪声和其他的噪声比例,放在了补充材料中。
缓解标签噪声。如上图所示,当把SLS加入MT后,SLS可以减少15%的错误率。
SLS不仅能够提升对纯净样本的预测,还能改进对噪声样本的预测。如上图所示,使用SLS有更好的性能。
SLS的设计。如上图所示,对于三种主要的设计,SLS都有更好的性能。
基于不同平滑参数的评估。如上图所示,基于不同的,平均精度随增大先增后减。(过大的平滑参数会使高可信度分类转化后的可信度降低)
基于不同门限的评估。门限影响高可信度类别的数目。对于性能顶峰,65%的样本的 k>1,随着的增大,k>1的样本越来越少,直到,所有的样本只有一个高可信度类别。
4.4 与最新成果的对比
本节往后,SOFT表示包含了SLS与不确定模块的MT网络。
基于合成的对称噪声的评估。如上图所示,与多个最新的FER方法相比,SOFT具有更好的性能。
基于合成的非对称噪声的评估。如上图所示,SOFT具有更好的性能。
非对称噪声很可能把真实标签转化为另一个标签。如上图所示是30%的对称和非对称噪声转移矩阵。非对称噪声更贴合现实,但是在之前的FER中,并没有使用过。
在训练一个vanilla(普通的,原始的)后,获得一个困惑矩阵,然后用最容易使人误解的标签类别为每一个类别构建噪声转移矩阵。
在Benchmarks上的对比。如上图所示,对于原始的FER数据集(未添加任何噪声),相比于最新的FER方法,SOFT都有优越的性能。
5. 结论
本文未研究的内容:SOFT在FER之外的其他情况的应用,以及SLS在其他类“student-teacher”架构的应用,例如:对比学习和自监督学习,它们在训练时都成对的对比样本。
参考
Lukov, T., Zhao, N., Lee, G. H., & Lim, S. N. (2022). Teaching with Soft Label Smoothing for Mitigating Noisy Labels in Facial Expressions. In European Conference on Computer Vision (pp. 648-665). Springer, Cham.