用于缓和面部表情噪声标签(Noisy Labels)的带有软标签平滑(Soft Label Smoothing)的教师网络(Teaching Network)

Teaching with Soft Label Smoothing for Mitigating Noisy Labels in Facial Expressions

公众号:EDPJ

目录

0. 摘要

1. 简介

2. 相关工作

2.1 面部表情识别(Facial Expression Recognition,FER)

2.2 使用噪声标签(Noisy Labels)学习

3. 方法

3.1 背景和标注

3.2 本文方法总览

3.3 软标签平滑(Soft Label Smoothing,SLS)

4. Experiment

4.1 Datasets

4.2 实现细节

4.3 消融实验

4.4 与最新成果的对比

5. 结论

参考


0. 摘要

最近的研究突出了面部表情数据集中的噪声标签的问题。这些具有不确定性的标签的产生原因:模棱两可的面部表情、低质量表情图片、标注者对模棱两可表情的主观意向、等等。为了解决噪声标签的问题,本文提出了软标签平滑(Soft Label Smoothing,SLS):对于高可信度的类别,基于其可信度分配给其一个概率;对于低可信度的类别,分配给其一个固定的低概率。特别地,本文提出了一个用于teaching的平滑操作框架(the Smooth Operator Framework for Teaching),该框架基于mean-teacher(MT)架构,其中的teacher logits使用了SLS。研究发现,经过平滑的teacher logits为student提供了更好的参考,从而促使整体性能的提升。

1. 简介

早期研究表明:使用标签分布(不同标签有不同强度)而不是使用one-hot标签来表示真实标签,有助于缓和噪声标签的影响。直观地,面部表情通常是复合的(例如:一个表情可以同时表现出生气和伤心),而是用标签分布可以更好的描述复杂的表情。因此,研究者们提出了标签分布学习(label distribution learning,LDL),标签增强(label enhancement,LE)以及标签平滑正则化(label smoothing regularization,LSR)。虽然LDL、LE、LSR的目标相似,但LSR是分析的形式,因此更适合对比。

本文的主要发现是:在有噪声标签的情况下,通过平滑logits,可以提升面部表情识别(facial expression recognition,FER)的性能。虽然LSR也能用于平滑logits,它与SLS的不同点在于它只给置信度最高的类别分配高概率。SLS是实例级的(不同的样本有不同的分布),而LSR是类别级的。

Mean-teacher(MT)架构:通过teacher logits和student logits的差异来检测噪声标签。基于MT的成功,作者推测MT网络可以抵抗噪声标签,teacher通过保留历史信息来监督student(teacher基于student网络的exponential moving average进行更新)。

综上,本文贡献如下:

  • 提出了一个新框架:用于teaching的平滑操作框架(Smooth Operator Framework for Teaching,SOFT),从而缓和噪声标签对面部表情识别(facial expression recognition,FER)的影响。SOFT由一个mean-teacher(MT)组成,其中的teacher logits使用了软标签平滑(Soft Label Smoothing,SLS)。
  • 本文方法简单,不需要额外的数据集,也不需要标签分布标注(就像LDL中的那样),因此在训练时不会有额外的计算。
  • 对于不同级别的噪声标签,本研究在FER上都有较好的性能。

上图是对teacher的预测单元使用SLS后生成的标签分布。给定的真实one-hot标签标记为红色。从左到右的Su, Fe, Di, Ha, Sa, An, Ne分别表示惊喜(Surprise), 恐惧(Fear), 厌恶(Disgust), 高兴(Happiness), 伤心(Sadness), 生气(Anger), 中立(Neutral)。对于第一行(a),SLS生成的标签分布可以更好地描述复合的表情,尽管置信度最高的类别并没有对应于真实标签。对于第二行(b),置信度最高的类别正确预测了真实标签,而相比于只使用一种表情,标签分布可以更好地描述面部表情。

2. 相关工作

2.1 面部表情识别(Facial Expression Recognition,FER)

FER算法可以分为两个类别:人为制作的、基于学习的.

传统的基于人为制作特征的方法有:SIFT,HOG,Histograms of local binary patterns,Gabor wavelet coefficients。

随着深度学习的发展,基于学习的方法成为主流且有更好的性能。

  • 一些人使用双流网络(two stream network)把面部图像与landmarks和光流(optical flows)融合。
  • 一些人利用了使人印象深刻的表情与中立(Neutral)表情的的差异性。
  • 最近,Ruan使用CNN提取基础特征,这些特征被分解成面部动作隐(latent)特征,从而有效的表示不同表情之间的相似性。

然而,上述的这些方法都没有解决噪声标签以及表情模棱两可的问题。

2.2 使用噪声标签(Noisy Labels)学习

基于噪声标签的深度学习已经被广泛研究。

  • 一个方法是为网络添加噪声自适应层(noise adaptation layer),从而学习标签转移矩阵(label transition matrix)或者生成一个专门的结构。
  • 另一个方式是研究正则化(regularization)的方法从而提升泛化能力(generalizability)。显式的正则化(例如,dropout、weight decay)更改了训练loss;隐式的正则化(例如,augmentation、label smoothing)阻止model把所有的概率分配给带有噪声标签的样本。在训练时减少过拟合(overfitting)可以提升对噪声标签的鲁棒性(robustness)。
  • 其他的方法提议容忍噪声的loss function,例如:absolute mean error、generalized  cross  entropy;或者一些更改loss值的方法,例如:loss correction、loss reweighting、label refurbishment。
  • 其他的核心思想是样本选择:从有噪数据集中选出干净的样本,且只用这些样本更新网络。该方法与其他方法结合有很好的性能。

标签分布学习(LDL)和标签增强(LE)可以缓解一些相关工作(例如,头部姿态、面部年龄识别)中模棱两可的问题。

Zhou et al. 第一个提出了解决这个问题的方法:使用情绪分布学习学会了把表情图像映射为情绪分布。

为了解决标签分布不可获得的问题,Xu et al. 提出了使用one-hot标签的LE方法。然而,由于k-NN搜索,该方法有很高的时间复杂度,从而限制了用于训练的数据集的大小。

Zeng et al. 解决了FER数据集中标注不连续的问题。他用人工标注的方法为每一张图像添加多个标签,并预测一个伪(pseudo)标签。然后从不连续的伪标签中学习一个模型(IPA2LT)来匹配隐藏的真实标签。

Wang et al. 解决了样本不确定性的问题。他学习了一个不确定性分数(uncertainty score),然后尝试使用重标注(relabel)的方法改正噪声标签。然而,该方法没有考虑复合表情。此外,该方法把不连续性看做噪声,且忽视了由模棱两个面部表情导致的噪声标签。

Chen et al. 构建了一个用于学习标签分布的最近邻图(nearest neighbor graphs),它需要额外的数据集进行辅助。

为了解决模棱两可的问题,She et al. 提出了Distribution Mining and the pairwise Uncertainty Estimation(DMUE):构建了与类别数目相同的辅助分支,从而学习样本的标签分布。

3. 方法

3.1 背景和标注

给定FER的labelled dataset(X,Y),类别C的每个样本都有一个one-hot标签y \in \mathop {\{ 0,1\} }\nolimits^C。然而,对于一个有噪声标签的数据集,这个标签可能是错的或者模棱两可的。

标签平滑(Label Smoothing)。标签平滑正则化(Label Smoothing Regularization,LSR)被广泛用于正则化,从而改进泛化以及标定(calibration)。

当使用LSR时,one-hot标签被修改为多个可能标签混合的标签。给定one-hot标签y \in \mathop {\{ 0,1\} }\nolimits^C

,LSR生成\tilde y \in \mathop R\nolimits^{1 \times C},表示为:

其中,\varepsilon是用于平滑分布的超参数,l是真实标签类别的索引。 

Mean-teacher。该架构原本是在semi-supervised learning中使用的。作者对其调整从而能处理FER中噪声标签的问题。有相同结构的两个网络(teacher、student)被迫输出相同的预测,输入时会引入随机噪声(通过dropout layer或者random augmentation,在本文中使用后者)。 

如上图所示,teacher和student network的输入是一样的。它们的输出由一致性loss联系在一起;此外,Student network的输出由给定的标签通过分类loss(cross entropy)监督。Student network还有一个不确定性模块(uncertainty module),用于预测不确定性分数(uncertainty score)。该分数用于对分类loss加权。

3.2 本文方法总览

本文使用的基于mean-teacher的结构如上图所示,给定的真实标签混有噪声,噪声的比率未知。本文用SLS提升teacher单元。Student由一个不确定性模块组成。该模块预测一个用于计算加权的交叉熵损失的不确定性分数(weighted cross entropy,WCE)。在测试的时候,不确定性模块被移除。无论是teacher还是student,在验证集上性能最好的一个就可以用于推断。

3.3 软标签平滑(Soft Label Smoothing,SLS)

SLS保留了可信度最高的 k 个预测,并把其余低可信度的预测平均。对于一个样本x,标记logits为p(x) \in \mathop R\nolimits^{1 \times C},然后可以获得一个分布向量q = soft\max (p),\mathop {\left\| q \right\|}\nolimits_1 = 1。定义 k 为超过门限\tau的元素的数目,表示为:

其中,[ \ldots ]表示艾佛森括号(Iverson brackets,是一种用方括号记号,如果方括号内的条件满足则为1,不满足则为0)。SLS可以表示为:

当样本的 k=1 时,SLS与LSR相同。在本文框架中,对teacher单元试用SLS。教师网络的权重{\theta '},只使用基于student网络\theta的指数移动平均权重(exponential moving average,EMA)更新:

其中, \omega \in [0,1]表示衰减率。

3.4 Loss Funchtion

一致性损失(Consistency Loss)。学生受限于一致性损失,该损失由学生单元\mathop p\nolimits_s与使用了SLS的老师单元的的软标签\mathop {\tilde y}\nolimits_t = SLS(\mathop p\nolimits_t )之间的KL散度表示:

Logit加权的交叉熵损失(LogitWeighted Cross-Entropy Loss)。对于样本\mathop x\nolimits_i,由backbone网络产生的特征向量表示为f(\mathop x\nolimits_i )。把该向量输入学生网络的不确定性模块获得不确定性分数\mathop \alpha \nolimits_i。表示为:

其中\mathop W\nolimits_u表示线性层的参数。由logit加权的交叉熵损失表示为:

其中,\mathop y\nolimits_i表示类别 i 的索引。\mathop W\nolimits_j^T f(\mathop x\nolimits_i )表示样本 i 的第 j 个类别的logit。

总损失。训练学生网络的总损失表示为:

其中,\lambda是控制一致性损失贡献度的权重。

4. Experiment

4.1 Datasets

三个数据集:RAF-DB,AffectNet,FERPlus。

因为数据集中的噪声标签未知,为了评估本文方法的降噪性能,向其中加入了合成的噪声标签。特别地,用标签转移矩阵 T 把每一个原始的标签 y 转换为{y}',其中,\mathop T\nolimits_{ij} = \Pr [y' = j|y = i]。使用两种噪声:对称(例如:均匀分布的)的和非对称的(例如:依赖于类别的)。对于对称噪声,一个标签被随机的转换为另一个标签。非对称噪声是把一个标签转换为令人困惑的标签(该标签可由困惑矩阵辨认)。

4.2 实现细节

首先用MTCNN检测排列面部图像。然后把他们重整为224*224像素。然后用随机裁剪和水平翻转增强他们。

至于backbone网络,使用常用的用FER的ResNet-18。为公平对比,在MS-Celeb-1M上对backbone网络用标准路径预训练。

学生网络使用Adam optimizer训练。

4.3 消融实验

SLS效果。在没有特别说明时,所有的实验都是在添加了30%对称噪声的RAF-DB上进行。其他的实验,包括非对称噪声和其他的噪声比例,放在了补充材料中。

缓解标签噪声。如上图所示,当把SLS加入MT后,SLS可以减少15%的错误率。

SLS不仅能够提升对纯净样本的预测,还能改进对噪声样本的预测。如上图所示,使用SLS有更好的性能。

SLS的设计。如上图所示,对于三种主要的设计,SLS都有更好的性能。

基于不同平滑参数\varepsilon的评估。如上图所示,基于不同的\varepsilon,平均精度随\varepsilon增大先增后减。(过大的平滑参数会使高可信度分类转化后的可信度降低)

基于不同门限\tau的评估。门限\tau影响高可信度类别的数目。对于性能顶峰\tau = 1/8,65%的样本的 k>1,随着\tau的增大,k>1的样本越来越少,直到\tau = 0.4,所有的样本只有一个高可信度类别。

4.4 与最新成果的对比

本节往后,SOFT表示包含了SLS与不确定模块的MT网络。

基于合成的对称噪声的评估。如上图所示,与多个最新的FER方法相比,SOFT具有更好的性能。

基于合成的非对称噪声的评估。如上图所示,SOFT具有更好的性能。

非对称噪声很可能把真实标签转化为另一个标签。如上图所示是30%的对称和非对称噪声转移矩阵。非对称噪声更贴合现实,但是在之前的FER中,并没有使用过。 

在训练一个vanilla(普通的,原始的)后,获得一个困惑矩阵,然后用最容易使人误解的标签类别为每一个类别构建噪声转移矩阵。

在Benchmarks上的对比。如上图所示,对于原始的FER数据集(未添加任何噪声),相比于最新的FER方法,SOFT都有优越的性能。

5. 结论

本文未研究的内容:SOFT在FER之外的其他情况的应用,以及SLS在其他类“student-teacher”架构的应用,例如:对比学习和自监督学习,它们在训练时都成对的对比样本。

参考

Lukov, T., Zhao, N., Lee, G. H., & Lim, S. N. (2022). Teaching with Soft Label Smoothing for Mitigating Noisy Labels in Facial Expressions. In European Conference on Computer Vision (pp. 648-665). Springer, Cham.

猜你喜欢

转载自blog.csdn.net/qq_44681809/article/details/128375185