【Video FAS】《Research on Face Liveness Detection Based Video》

企业开发 2025-04-08 13:05:37 阅读次数: 0

在这里插入图片描述

[1]隋雅茹.基于视频的人脸活体检测算法研究[D].长春理工大学,2024.DOI:10.26977/d.cnki.gccgc.2024.000063.

文章目录

1、Background and Motivation
2、Related Work
3、Advantages / Contributions
4、Method
5、Conclusion（own） / Future work

1、Background and Motivation

攻击类型
在这里插入图片描述
background

人脸识别技术的广泛应用
人脸识别技术的安全威胁

motivation

提高人脸识别系统的安全性
克服传统算法的局限性
推动人脸识别技术的发展

2、Related Work

基于纹理信息的人脸活体检测方法
- 传统方法
- 深度学习的方法
基于生理信息的人脸活体检测方法——rPPG技术
- 传统方法 （研究者通过选取感兴趣区域（ROI）、去噪等预处理步骤来提取rPPG信号，并提取手工设计的特征（如心率、频谱统计特征等）进行分类。）（缺点：但当受到噪声影响时，rPPG 信号不够稳健。此外，需要采集 10 至 12 秒的人脸视频才能识别出心跳信息，限制了基于生理信息的检测方法在实际生活中的应用。）
- 深度学习方法

在这里插入图片描述

存在的问题

纹理信息方法：

需要人脸图像具有较高的分辨率，以准确区分真假人脸的微小纹理特征差异。
在面对不同采集环境、特别是在昏暗的环境中，识别伪造人脸的能力会降低。
难以有效地区分真实人脸和3D面具攻击。

生理信息方法：

rPPG信号容易受到光照、头部运动以及采集设备运动的影响，降低活体检测的准确性。
即使在真实人脸视频中，也可能存在微弱的生理信号，影响对重播攻击的检测效果。

3、Advantages / Contributions

提出基于纹理特征的人脸活体检测方法 Gram-Net
提出基于生理特征的人脸活体检测方法 STNet + FFT + SVM
提出基于多特征融合的人脸活体检测方法（提出基于注意力机制的融合模块），结合了基于纹理特征的 Gram-Net 和基于生理特征的 ST-Net（采用迁移学习的方法训练双通道网络），通过基于注意力机制的融合模块实现了对纹理特征和生理特征的有效融合。

在 Replay-Attack 和 3DMask 数据库上，基于纹理特征的方法达到了 100% 的准确率。

基于生理特征的方法在 Replay-Attack 数据库上准确率为99.38%，在 3DMask 数据库上为 100%。

基于多特征融合的方法在 Replay-Attack 数据库上准确率为99.79%，在 3DMask 数据库上为 100%。

4、Method

4.1、基于纹理特征的人脸活体检测

人脸检测，作者选用的是 MTCNN

在这里插入图片描述

P-Net 主要负责生成候选人脸框。
在这里插入图片描述
R-Net 对 P-Net 生成的候选框进行进一步的筛选和精修。

O-Net 是人脸检测网络的末端模块，主要职责是精确定位人脸的关键特征点。

在这里插入图片描述

特诊提取

Gram 矩阵可进一步用于纹理合成和图像风格转移

Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2414-2423.

本文采用 Gram-Net 网络提取全局纹理特征，将其作为识别打印攻击、屏显攻击以及 3D 面具攻击的依据。

Liu Z, Qi X, Torr P H S. Global texture enhancement for fake face detection in the wild[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 8060-8069.

在这里插入图片描述
主干 resnet-18

分支 6 个 Gram Block，

其中“⊕”代表 concate。

最后接个分类器

Gram Block 3 个 conv 1 个 average pooling 和 1 个 Gram 层构成

Gram 矩阵通常用于描述一组向量的内积关系

在这里插入图片描述
参考格拉姆矩阵（Gram matrix）详细解读 - FlyAI的文章 - 知乎

在这里插入图片描述
具体细节

M 和 M的转置做内积

在这里插入图片描述

应用在风格迁移中就是最小化两个特诊的 Gram Matrix 以实现风格相近

在这里插入图片描述

Gram 矩阵通过捕捉卷积层中不同通道特征图之间的协方差关系，以及每个滤波器对输入图像的响应方式，提供了一种在全局范围内捕捉纹理信息的方法。Gram 矩阵所携带的纹理信息主要用于强调图像的风格特征，而非具体的物体形状或结构。

Gram-Net 网络可以比较真实人脸图像和虚假人脸的 Gram 矩阵差异，从而衡量真实人脸和虚假人脸之间的风格差异，从而提高检测的性能。

输入的时候还是单张图片，不是真假图片对

将主干网络提取的深层特征与 Gram 模块提取的图像风格特征进行特征级融合，获得一个更为精细的全局纹理特征，从而使 Gram-Net 模型具有较高的检测性能

实验数据集 Replay-Attack、3DMask

在这里插入图片描述

实验结果
在这里插入图片描述
与其它方法比较

在这里插入图片描述

4.2、基于生理特征的人脸活体检测

PPG（Photoplethysmography）是一种接触式的心率监测技术，通过可穿戴设备实现，具有高精度和广泛的应用场景。

rPPG（remote Photoplethysmography）是一种非接触式的心率监测技术，通过摄像头捕捉皮肤颜色变化实现，适用于远程监测和情绪识别等场景，但受环境因素影响较大。

在这里插入图片描述

spa-tiotemporal convolution network，ST-Net

在这里插入图片描述

2+1 D 卷积来自

Tran D, Wang H, Torresani L, et al. A closer look at spatiotemporal convolutions for action recognition[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018: 6450-6459.