【LSTM-CNN】《Learning Temporal Features Using LSTM-CNN Architecture for Face Anti-spoofing》

在这里插入图片描述

Xu Z, Li S, Deng W. Learning temporal features using LSTM-CNN architecture for face anti-spoofing[C]//2015 3rd IAPR asian conference on pattern recognition (ACPR). IEEE, 2015: 141-145.

ACPR-2015



1、Background and Motivation

一、背景

  • 人脸识别系统的重要性
    人脸识别技术在安全监控、身份验证等领域具有广泛应用,因此确保人脸识别系统的准确性和可靠性至关重要。
  • 人脸防欺骗问题的挑战
    随着伪造技术的不断发展,各种欺骗手段(如扭曲照片攻击、剪裁照片攻击、视频攻击等)层出不穷,使得人脸防欺骗问题变得日益复杂和困难。
  • 传统方法的局限性
    传统的人脸防欺骗方法主要依赖于手工设计的特征(如纹理特征、运动特征等),这些方法在复杂多变的欺骗场景下表现不佳,且难以有效提取和利用视频序列中的时序特征。

二、动机

  • 探索深度学习在人脸防欺骗中的应用
    深度学习技术具有强大的特征提取和表示能力,能够直接从原始数据中学习有效的特征表示,因此被广泛应用于计算机视觉领域。论文作者希望探索深度学习在人脸防欺骗问题中的应用潜力。

  • 提出 LSTM-CNN 架构以学习时序特征
    考虑到人脸防欺骗问题中时序特征的重要性,论文作者提出了一种结合长短期记忆(LSTM)网络和卷积神经网络(CNN)的深度学习架构(LSTM-CNN)。该架构能够利用 LSTM 网络捕捉视频序列中的长时序依赖关系(Temporal features),并通过 CNN 网络提取局部和密集( local and dense features)特征,从而提高人脸防欺骗的准确性和鲁棒性。

  • 验证背景信息在人脸防欺骗中的作用
    论文作者还通过实验验证了背景信息在人脸防欺骗问题中的重要作用。他们发现,通过引入背景信息,可以进一步提高人脸防欺骗系统的性能。

2、Related Work

  • hand-crafted features(texture-based, motion-based and multi-spectral-based)

    扫描二维码关注公众号,回复: 17566422 查看本文章
  • deep neural networks


de Freitas Pereira T, Anjos A, De Martino J M, et al. LBP− TOP based countermeasure against face spoofing attacks[C]//Computer Vision-ACCV 2012 Workshops: ACCV 2012 International Workshops, Daejeon, Korea, November 5-6, 2012, Revised Selected Papers, Part I 11. Springer Berlin Heidelberg, 2013: 121-132.
在这里插入图片描述


Yue-Hei Ng J, Hausknecht M, Vijayanarasimhan S, et al. Beyond short snippets: Deep networks for video classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 4694-4702.

在这里插入图片描述
在这里插入图片描述

作者的方法和这个方法很像,不过作者的方法设计的元素会更少一些,eg 没有了 feature poolig

3、Advantages / Contributions

  • 提出 LSTM-CNN 架构用于人脸防欺骗任务,提升人脸防欺骗性能
  • 验证背景信息(人脸区域外)的重要性

4、Method

作者输入的是一组图片,输出的是真假二分类,很像视频分类任务

在这里插入图片描述

(1)LSTM units

LSTM 的原理和代码可以参考 【Keras-LSTM】IMDb

在这里插入图片描述

在这里插入图片描述

(2)LSTM-CNN architecture

CNN 提取特征(locally and densely),然后 LSTM 进一步提取时序特征(learns temporal structure),最后接 softmax 二分类

在这里插入图片描述

The LSTM layer has 30 internal cells for each time step.


CNN 设计的比较简单,两个卷积(48->96),两个 max pooling,一个 FC(1000 neurons)

在这里插入图片描述
put a LSTM layer between the fully connected layer and softmax layer

(3)Training

用的 caffe toolbox

a Nvidia K40c GPU card

SGD with a momentum

5、Experiments

人脸检测用的是 face detector Viola-Jones in OpenCV

extract overlapping samples from videos

5.1、Datasets and Metrics

CASIA dataset

评价指标 Equal Error Rate(EER) 和 Half Total Error Rate (HTER)

5.2、Results

在这里插入图片描述

作者的方法错误率比较低

人脸外扩,探索背景的重要性
在这里插入图片描述

在这里插入图片描述

可以看到背景信息还是挺重要的

3,5,7,9 表示 time steps,也即一次性输入的图片数量

在这里插入图片描述

The HTER of our models is robust to the score threshold, see Figure 6. T

上面这个图可以看出,作者的方法对阈值并不敏感,说明模型很自信,不模棱两可,对就是对,错就是错,预测分数接近 0 和 1

6、Conclusion

  • learn temporal features from video sequences.

更多论文解读,请参考 【Paper Reading】