[1]隋雅茹.基于视频的人脸活体检测算法研究[D].长春理工大学,2024.DOI:10.26977/d.cnki.gccgc.2024.000063.
文章目录
1、Background and Motivation
攻击类型
background
- 人脸识别技术的广泛应用
- 人脸识别技术的安全威胁
motivation
- 提高人脸识别系统的安全性
- 克服传统算法的局限性
- 推动人脸识别技术的发展
2、Related Work
- 基于纹理信息的人脸活体检测方法
- 传统方法
- 深度学习的方法
- 基于生理信息的人脸活体检测方法——rPPG技术
- 传统方法 (研究者通过选取感兴趣区域(ROI)、去噪等预处理步骤来提取rPPG信号,并提取手工设计的特征(如心率、频谱统计特征等)进行分类。)(缺点:但当受到噪声影响时,rPPG 信号不够稳健。此外,需要采集 10 至 12 秒的人脸视频才能识别出心跳信息,限制了基于生理信息的检测方法在实际生活中的应用。)
- 深度学习方法
存在的问题
纹理信息方法:
- 需要人脸图像具有较高的分辨率,以准确区分真假人脸的微小纹理特征差异。
- 在面对不同采集环境、特别是在昏暗的环境中,识别伪造人脸的能力会降低。
- 难以有效地区分真实人脸和3D面具攻击。
生理信息方法:
- rPPG信号容易受到光照、头部运动以及采集设备运动的影响,降低活体检测的准确性。
- 即使在真实人脸视频中,也可能存在微弱的生理信号,影响对重播攻击的检测效果。
3、Advantages / Contributions
- 提出基于纹理特征的人脸活体检测方法 Gram-Net
- 提出基于生理特征的人脸活体检测方法 STNet + FFT + SVM
- 提出基于多特征融合的人脸活体检测方法(提出基于注意力机制的融合模块),结合了基于纹理特征的 Gram-Net 和基于生理特征的 ST-Net(采用迁移学习的方法训练双通道网络),通过基于注意力机制的融合模块实现了对纹理特征和生理特征的有效融合。
在 Replay-Attack 和 3DMask 数据库上,基于纹理特征的方法达到了 100% 的准确率。
基于生理特征的方法在 Replay-Attack 数据库上准确率为99.38%,在 3DMask 数据库上为 100%。
基于多特征融合的方法在 Replay-Attack 数据库上准确率为99.79%,在 3DMask 数据库上为 100%。
4、Method
4.1、基于纹理特征的人脸活体检测
人脸检测,作者选用的是 MTCNN
P-Net 主要负责生成候选人脸框。
R-Net 对 P-Net 生成的候选框进行进一步的筛选和精修。
O-Net 是人脸检测网络的末端模块,主要职责是精确定位人脸的关键特征点。
特诊提取
Gram 矩阵可进一步用于纹理合成和图像风格转移
Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2414-2423.
本文采用 Gram-Net 网络提取全局纹理特征,将其作为识别打印攻击、屏显攻击以及 3D 面具攻击的依据。
Liu Z, Qi X, Torr P H S. Global texture enhancement for fake face detection in the wild[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 8060-8069.
主干 resnet-18
分支 6 个 Gram Block,
其中“⊕”代表 concate。
最后接个分类器
Gram Block 3 个 conv 1 个 average pooling 和 1 个 Gram 层构成
Gram 矩阵通常用于描述一组向量的内积关系
参考 格拉姆矩阵(Gram matrix)详细解读 - FlyAI的文章 - 知乎
具体细节
M 和 M的转置做内积
应用在风格迁移中就是最小化两个特诊的 Gram Matrix 以实现风格相近
Gram 矩阵通过捕捉卷积层中不同通道特征图之间的协方差关系,以及每个滤波器对输入图像的响应方式,提供了一种在全局范围内捕捉纹理信息的方法。Gram 矩阵所携带的纹理信息主要用于强调图像的风格特征,而非具体的物体形状或结构。
Gram-Net 网络可以比较真实人脸图像和虚假人脸的 Gram 矩阵差异,从而衡量真实人脸和虚假人脸之间的风格差异,从而提高检测的性能。
输入的时候还是单张图片,不是真假图片对
将主干网络提取的深层特征与 Gram 模块提取的图像风格特征进行特征级融合,获得一个更为精细的全局纹理特征,从而使 Gram-Net 模型具有较高的检测性能
实验数据集 Replay-Attack、3DMask
实验结果
与其它方法比较
4.2、基于生理特征的人脸活体检测
PPG(Photoplethysmography)是一种接触式的心率监测技术,通过可穿戴设备实现,具有高精度和广泛的应用场景。
rPPG(remote Photoplethysmography)是一种非接触式的心率监测技术,通过摄像头捕捉皮肤颜色变化实现,适用于远程监测和情绪识别等场景,但受环境因素影响较大。
spa-tiotemporal convolution network,ST-Net
2+1 D 卷积来自
Tran D, Wang H, Torresani L, et al. A closer look at spatiotemporal convolutions for action recognition[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018: 6450-6459.
与标准的 3D 卷积的相比,(2+1)D 卷积不仅可以提取更丰富的非线性信息,还可以在降低参数量的同时使模型更容易进行优化。
用的是实例归一化(Instance Norm,IN)和 relu 激活函数
rPPG 信号训练集,
本文使用 UBFC-rPPG 数据库对时空卷积网络训练,使该模型学习从真实人脸视频中提取 rPPG 信号的能力
假体看起来振幅也没有那么平滑
获取到 rPPG 信号后还需特征提取
文中采用频域特征作为判别真实人脸和虚假人脸的依据
(1)心率(Heart Rate,HR)
通过检测频谱的峰值点来估算心率
(2)多尺度长期频谱统计特征(MS-LTSS)
特征提取后用 SVM 二分类
实验结果
4.3、基于多特征融合的人脸活体检
注意力模块使用两个全连接层以及一个 ReLU 激活函数对 F3 处理,然后使用 Sigmoid 函数生成注意力图 Y。
“⊙”表示元素级乘法(element-wise multiplication)
本文采用迁移学习的方法,对双通道模型进行监督训练(方法 4.1 和 方法 4.2 的模型当 pre-train)
实验结果
Replay-Attack
和其它方法对比
总结
5、Conclusion(own) / Future work
- 基于纹理的 Gram-Net 方法是直接套用,属于“领域创新”,第一次用 xxx 解决 xxx 领域的 xxx 问题
- 2+1 D 卷积
- ST-Net 提取 rPPG,FFT 变换后,提取心率和多尺度长期频谱统计特征,用于 SVM 二分类
- UBFC-rPPG 数据集
更多论文解读,请参考 【Paper Reading】