【论文阅读】Non-volume preserving-based fusion to group-level emotion recognition on crowd videos

【论文阅读】Non-volume preserving-based fusion to group-level emotion recognition on crowd videos

摘要

本篇博客参考Pattern Recognition 2022年收录的论文Non-volume preserving-based fusion to group-level emotion recognition on crowd videos,对其主要内容进行总结,以便加深理解和记忆。

1.介绍

1)表情识别ER(Emotion Recognition)

基于人脸动作单元(FACS)的面部表情(即面部肌肉的运动)的情感识别(ER)在情感计算电子学习医疗保健虚拟现实人机交互(HCI)领域已经研究了多年。ER方法在技术上可以分为两个:个体ER、群体级ER。

虽然个体ER的研究已经相当成熟,但群体级ER的研究仍处于初级阶段。群组级ER的一个挑战是检测群组中的所有人脸,并在场景(图像或视频)中聚合群组的情感内容。随着安全领域和社交媒体对各种规模人群进行评估的需求越来越多,群体情绪识别成为一个日益增长的研究领域。

传统的ER方法是基于手工设计的特征,如Shan等人[1]、Kahou等人[2]所示。然而,随着深度学习、丰富的大规模数据集和图形处理器的计算能力的出现,计算机视觉任务的性能得到了巨大的提高,个体(传统)ER确实如此。与传统手工制作的模型相比,最优的深度学习模型能够提取更深层次的判别特征。事实证明,这些基于深度特征的ER解决方案不仅能够在单个图像上对群体层面的情绪进行分类,还能够对个人或群体ER的视频进行分类。

2)借鉴(作者的贡献)

群体呈现的多重情绪问题:解决低分辨率面部导致的情绪不明确问题(面部太小无法记录任何情绪)

  • 提出了一种高性能、低成本的面部表情识别网络EmoNet,用于提取个体面部表情特征
  • 提出了一种新的融合机制,称为非保量融合NVPF,来模拟一组面部表情之间的特征级空间关系。与以往只呈现一种情绪的工作不同,可以对多个情绪区域进行聚类
  • 针对人群视频的群体级ER问题,引入了一种新的数据集GECV

2.相关工作

1)基于图像的群体情绪识别

  • 从整个图像中提取场景特征作为全局表示[12,13],并从给定图像提取面部特征作为局部表示[14-17]。[6,7,18,19]提出基于人脸、场景、骨骼、身体和视觉注意的混合网络来识别群体情绪。大多最先进的方法采用“朴素”的机制,如平均[4,19,20]、连接[3]、加权[4,5,18]等以结合全局信息和局部表示。

  • 郭等人引入的关联或加权使用了7种不同的基于CNN的模型,这些模型在场景、背景、人脸和骨架的不同部分进行训练并对预测结果进行了优化。

  • Tan等[4]分别为对齐面非对齐面整幅图像构建了三种CNN模型[21-26],每个CNN生成每个类的分数,然后通过平均策略将其组合以获得最终的分数。

  • Wei等人使用LSTM网络对人脸之间的空间信息进行建模,每个人脸的局部信息由VGGFace-lstm和DCNN-lstm表示,全局信息由PHOG、CENTRIST、DCNN、VGG特征提取,并通过分数融合实现局部特征和全局特征的融合。

  • Rassadin等[5]使用经过人脸识别训练CNN提取被检测人脸的特征向量,采用随机森林分类器预测情绪得分。

  • Wang等[19]提出使用人脸、身体和全局图像三种线索,通过3个CNN将面部、身体和全局图像的所有分数平均得到最终分数。

  • Abbas等[20]采用密集连接的网络将来自场景的1×3分向量和来自面部特征的1×3分向量合并

  • Gupta等人提出了不同的局部和全局信息加权融合机制,他们的注意力模型在特征水平或分数水平上进行

  • Khan等人提出了将ResNet-18和ResNet-34同时用于小脸和大脸的方案,并将其设计为四流混合网络

除了识别群体的情感之外,群体凝聚力[27-29],即一个群体为了共同的目标或情感而团结起来的倾向也可以预测。在EmotiW 2019挑战赛中,组织者介绍了他们对静态图像中群体凝聚力预测的研究[30,31]。他们用群体凝聚力标签扩展了群体影响(GAF)数据库[32],并引入了新的GAF凝聚力数据库。

  • 在他们的论文中,他们分别使用Inception V3[33]和CapsNet[34]提取图像级(全局)和人脸级(局部)特征来预测群体凝聚力。
  • 最近,Mou等人提出了一个框架来预测来自不同环境下的个人和群体的上下文信息,即使用面部和身体行为线索,使用多模态融合和长短期记忆网络(LSTM)的视频时间建模。
  • 最近,用于人群计数和定位的大规模数据集的出现,如NWPU-Crowd[36]等,有助于推动人群场景理解,如Wang等人提出的Wang et al[37]、[38]。

2)基于视频的个人情绪识别

  • Kahou等人[39]在EmotiW2013上结合了多个深度神经网络,包括深度CNN、深度信念网络、深度自编码器和浅层网络,用于不同的数据模式,通过平均得分决策融合帧间的时间信息。
  • Liu等人[40]在EmotiW2014上使用了三种类型的图像集模型,线性子空间、协方差矩阵和高斯分布,并对视频集进行了逻辑回归和偏最小二乘三种分类方法的研究,通过平均分决策来融合帧间的时间信息。
  • Ebrahimi Kahou等[41]在EmotiW2015上使用RNN对时间信息建模(而不是平均),MLP对每个模态有单独的隐藏层,并将其连接
  • Li等人[42]提出了一共框架,利用来自视频的两个信息流:图像和音频来预测情绪。对于图像流,采用基于CNN的网络从裁剪后的人脸和图像序列中提取时空特征。对于音频流,提取音频特征,即低级描述符和频谱图,来计算融合音频分数,最后对所有得分进行加权求和。
  • Bargal等人[43]采用空间方法进行视频分类,其中特征编码模块基于SSR(Signed Square Root)和L2归一化,通过连接FC5和VGG13 + FC7和VGG16 + pool的ResNet,最后通过SVM进行分类。
  • Fan等[44]提出了一种基于视频的ER系统,该系统的核心模块是RNN和3D-CNN相结合的混合网络。3D-CNN对外观和运动信息的编码方式不同,RNN对运动信息的编码较晚。
  • Hu等[8]提出了监督评分集成SSE,对深层、浅层和中间层进行了监督。通过一种新的融合结构,将不同互补特征层的分类评分激活连接起来,进一步作第二级监督的输入,在该单CNN架构中充当深度特征集合。
  • 最近,王等[45]提出使用OpenFace[46]、OpenPose[47]和Convolution3D[48]从一系列图像中提取多模态特征,即眼睛注视、头部姿势、身体姿势和动作特征,然后通过平均权值对这些模型进行集成。
  • 最近,Sheng和Li[49]提出了一种多任务网络,可以从步态中识别身份和情绪

3)基于视频的群体情绪识别

对于人群分析和暴力行为的分析研究较少。Favaretto等人[11]提出了一种预测视频中人群人格和情绪的方法。他们检测并跟踪每个人,然后根据OCC情绪模型识别并分类视频中的人格五大维度(OCEAN)和情绪。

根据该文的文献综述,大多先前的工作仅通过简单的集成/融合方法解决了视频上的群体ER和个人ER问题。此外,以前大多数使用基于面部特征的工作不能处理人脸具有多个分辨率的情况,也不能处理图像中存在多个群体情绪的情况。

3.方法

EmoNet对单个人脸进行表情识别 → 将检测到的人脸根据相对空间距离聚类成组 → 对每一组人脸进行深度特征矢量化和结构化,得到组级面部表情特征,作为NVPF的输入 → 通过时空融合方法(Temporal NVPF)得到每帧和整个视频的融合特征(这一步基于视频的因而不看了)

1)EmoNet

轻量级和高性能的深度神经网络,EmoNet,用于有效和准确地识别个人面部表情(在群体ER中,一张图像中有大量的人脸需要处理,因此使用非常深的网络在特征空间中提取它们的表示可能非常昂贵且无效)

设计EmoNet的主要策略驱动:

  • 通过深度可分离卷积[51]执行卷积,更快,更省内存
  • 通过残差连接的bottolenet增加嵌入情感特征的网络容量
  • 快速降低前几层的空间维数,同时逐层扩展

输入是一张112 × 112 × 3的人脸图像,该图像经过了裁剪和对齐,去除了不必要的信息,如背景、头发等

EmoNet网络图:输入大小、块数量(B)、操作符、步幅(S)、输出通道数量©和剩余连接®

瓶颈块bottleNet的网络组成:

  • 具有ReLU激活B1的1×1卷积层
  • 3 × 3的深度卷积层,步幅为s,ReLU激活,B2
  • 1 × 1卷积层,B3

设输入x的大小为w×h×c,则bottleNet运算符可在数学上定义为:
B ( x ) = [ B 3 ( B 2 ( B 1 ( x ) ) ) ] B 1 ( x ) = R w × h × c → R w × h × c B 2 ( x ) = R w × h × c → R w s × h s × t c B 3 ( x ) = R w × h × c → R w s × h s × c 1 B(x) = [B_3(B_2(B_1(x)))] \\ B_1(x) = R^{w×h×c} → R^{w×h×c} \\ B_2(x) = R^{w×h×c} → R^{\frac w s × \frac h s × tc} \\ B_3(x) = R^{w×h×c} → R^{\frac w s × \frac h s × c_1} B(x)=[B3(B2(B1(x)))]B1(x)=Rw×h×cRw×h×cB2(x)=Rw×h×cRsw×sh×tcB3(x)=Rw×h×cRsw×sh×c1
t为膨胀因子,有无剩余连接的bottle块间的区别在于步长s,有残差的block中,s设为1,用于学习残差特征;无残差的block中,s设为2,用于缩小尺寸

2)基于非保值融合(NVPF)的群体情绪识别

新的融合机制:将一组人脸通过基于CNN的多层融合单元进行非线性的融合,该结构的最终目标为获得用于情感识别的概率密度分布形式的组级特征。通过这种方式,而非简单地连接或线性加权,被分离的面部特征可以很自然地嵌入到NVPF中统一的组级特征中,进而提高后续步骤的情绪识别性能。

形式上,给定一组N个面部 { f 1 , f 2 , . . . , f n } \{f_1,f_2,...,f_n\} { f1,f2,...,fn},首先使用EmoNet结构获取它们的特征表示 x i = E m o N e t ( f i ) , i = 1. N x_i = EmoNet(f_i),i=1.N xi=EmoNet(fi),i=1.N。然后将这些特征堆叠为一个分组特征S, S = G ( x 1 , x 2 , . . . , x N ) S=G(x_1,x_2,...,x_N) S=G(x1,x2,...,xN),其中G为分组函数(G可以有很多选择,将情感特征叠加到矩阵 S ∈ R M × N S∈R^{M×N} SRM×N就是选择之一)。任何其他选择都可以容易地适应这种结构,且分组函数G仍然独立对待 x i x_i xi,因此直接使用S进行情绪识别相当于不利用组中面孔之间关系的平凡解。因此,为了有效考虑这种关系,我们提出在更高层次的特征域H中以密度分布的形式对S进行建模,这样不仅对特征 x i x_i xi进行建模,而且它们之间的关系也很自然地嵌入到H所呈现的分布中。我们将这种从特征域S到新特征域H的映射定义为融合过程;S和H可分别视为局部和群体级特征;设F是一个非线性函数,它可以利用 S ∈ R M × N S∈R^{M×N} SRM×N H ∈ R M × N H∈R^{M×N} HRM×N的映射
F : S → H H = F ( S ; θ F ) F: S → H \\ H = F(S;θ_F) F:SHH=F(S;θF)
S的概率分布可表示为:
P s ( S ; θ F ) = P H ( H ) ∣ d F ( S ; θ F ) d S ∣ P_s(S;θ_F) = P_H(H)|\frac {d F(S;θ_F)} {dS} | Ps(S;θF)=PH(H)dSdF(S;θF)
这个公式,计算S的密度函数相当于用一个相关的雅可比矩阵估计H的密度分布,因为它是三角阵,所以它的行列式可以高效地计算,不需要计算两个特征S和H[53]的雅可比矩阵。通过学习这样的映射函数F,我们可以采用从局部特征S到密度 p H ( H ) p_H(H) pH(H)的嵌入H的转换。这个性质使我们得出这样的结论:如果我们把 p H ( H ) p_H(H) pH(H)看作一个先验密度分布,并选择 p H ( H ) p_H(H) pH(H)的高斯分布,那么F自然就变成了一个从S到一个以高斯分布的潜在变量H的映射函数。因此,通过F,局部特征可以融合成一个唯一的高斯分布特征,该特征嵌入每个xi以及S中所有 x i x_i xi x j x_j xj中呈现的所有信息。

为了加强非线性特性,我们将F构建为非线性单元 U F i U_{Fi} UFi的组成,其中每个单元在一群人的面部情感特征之间利用一定程度的相关性(即情感相似性,连接或交互)。
F ( S ) = ( U F 1 ◦ U F 2 ◦ . . . ◦ U F N ) ( S ) F(S) = (U_{F1} ◦ U_{F2} ◦ . . . ◦ U_{FN} )(S) F(S)=(UF1UF2◦...◦UFN)(S)
如上的网络结构图所示,通过将S表示为特征映射,卷积运算可以非常有效地利用S中 x i x_i xi之间的空间关系,并且通过叠加多个卷积层可以很容易地提取更长距离的关系,即 x 1 x_1 x1 x N x_N xN。因此,我们建议将每个映射单元构建为多个卷积层的组合。因此,F成为一个深度CNN网络,具有捕捉组中人脸之间嵌入的非线性关系的能力。注意,与其他类型的CNN网络不同,我们的NVPF网络是基于 p S ( S ; θ F ) p_S(S;θ_F) pS(S;θF),输出为融合的群级特征h。此外,为了使每个单元UFi的行列式具有易于计算的性质,我们采用Duong等[54]中的非线性单元结构如下:
Y = ( 1 − b ) ⊙ [ r 1 ( e x p ( S ′ ) ) + r 2 ( S ′ ) ] + S ′ Y = (1-b) ⊙ [r_1 (exp(S')) + r_2(S')] + S' Y=(1b)[r1(exp(S))+r2(S)]+S
其中Y是融合单元 U F 1 U_{F1} UF1的输出,S = b S, b是一个二进制掩码,其中b的前半部分都是1,其余部分都是0。⊙为Hadamard乘积。我们将尺度和光移分别作为变换T1和T2。在实际应用中,T1和T2功能可以通过一个带有跳跃连接的残余块来实现,类似于残余网络(ResNet)的构建块[55]。然后,通过将融合单元UFi叠加在一起,输出Y将成为下一个融合单元的输入,以此类推。最后,我们得到了上面的激活函数

NVPF的参数θF可以通过最大化对数似然或最小化负对数似然来学习,如下所示:
θ ∗ F = a r g m i n θ F L 11 = − l o g ( P s ( S ) ) = a r g m i n θ f − l o g ( P H ( H ) ) − l o g ( ∣ d F ( S , θ F ) d S ) θ*_F = argmin_{θ_F} L_{11} = -log(P_s(S)) = argmin_{θ_f} -log(P_H(H)) - log(|\frac {dF(S,θ_F)} {dS}) θF=argminθFL11=log(Ps(S))=argminθflog(PH(H))log(dSdF(S,θF))
为了进一步增强特征H的判别性,在训练过程中,我们为每个情绪类选择不同的高斯分布(即不同的均值和标准差)。优化参数 θ F θ_F θF后,F具有将局部特征转换为组级特征的能力,并将该特征强制执行到预测情感类的相应分布。通过匹配分布,可以为相应的群体级特征提供情感分类。为简单起见,我们只考虑三个类的分布,即正类、负类和中性类,但是,通过改变类的分布,可以很容易地采用任意数量的类。

3)基于时间非保量融合(TNVPF)的时空群体情绪识别

4.数据集GECV

5.实验

1)实验设置

  • 数据预处理:首先使用RetinaFace[57]检测所有的人脸,然后使用固定大小为112 × 112的相似度变换将所有人脸对齐到预定义模板,即基于5个点,包括眼、鼻、嘴角在内的5个地标点由RetinaFace[57]探测器给出。

  • 每个裁剪的人脸都可以通过EmoNet获得相应人脸的情感特征,并提供单独的ER输出。

  • 为了进一步对一群人的情绪进行分类,我们首先训练一个区域建议网络(RPN)来提供人脸的聚类区域:

    在Faster-RCNN[59]中使用类似的RPN结构来提出包含一组人脸的候选子窗口。骨干架构为ResNet-18,仅使用卷积层计算512−d特征映射(去除平均池化层和FC层)。这些特征映射随后被RPN使用,RPN由一个带有ReLU的3 × 3卷积层和两个并行的1 × 1卷积层组成,即分别用于盒回归(reg)和类分数(cls)。RPN同时在conv特征映射的每个位置预测k个子窗口建议。然后,reg层将提供4k输出,对应k个子窗口的坐标,而cls层将给出2k个分数,表示每个子窗口的人脸/非人脸的概率。我们不是直接预测k个子窗口的坐标,而是根据k个模板子窗口预测k个子窗口建议的参数,称为锚点。

    在每个特征图位置,模板子窗口都有一个比例尺和纵横比,3个不同的比例尺和3个纵横比为一个W × H特征图提供了总共a = 9个锚点和W × H × a个锚点。我们使用第4节中描述的收集的数据库训练RPN,其训练过程与Faster-RCNN[59]中类似。我们的RPN在验证集上的mAP为86.4%。

  • 对于每个融合单元NVPF,我们使用类似resnet的[60]架构来实现非线性映射函数F,其中非线性映射函数F具有10个融合单元 U F i U_{Fi} UFi。每个融合单元 U F i U_{Fi} UFi中的T1和T2两个变换由两个具有整流非线性和跳跃式连接的残余网络(ResNet)块实现。卷积层的滤波器大小设置为3 × 3,滤波器/特征映射的数量设置为32。TNVPF有4096个内存和隐藏单元。我们首先用两个时间步训练TNVPF,然后将其进一步扩展到五个时间步。

  • 在训练阶段,EmoNet、RPN、NVPF和TNVPF的batch size分别设置为512、256、64、64。学习率从0.1开始,动量为0.9。我们使用Adam优化器[61]来训练所有的模型。所有模型都是在MXNET环境下使用酷睿i7-6850K @3.6 GHz CPU, 64.00 GB RAM和四个P6000 gpu的机器进行训练的。我们在一台Nvidia GTX 1080Ti GPU机器上运行推理,人脸检测耗时8毫秒,EmoNet提取每张人脸特征耗时4毫秒,NVPF计算每帧/图像融合特征平均耗时0.2秒,TNVPF预测整个视频的情感类别平均耗时0.5秒,对于10秒的全高清(1280 × 720)视频,总共耗时约50秒。

2)基于图像的单人表情识别

AffectNet数据集[64]

3)基于图像的群体表情识别

EmotiW

4)基于视频的群体情绪识别

猜你喜欢

转载自blog.csdn.net/qq_44930244/article/details/130277208