综述:基于骨骼(skeleton)的动作识别方法

Deep learning‐based action recognition with 3D skeleton: Asurvey

1. 简介

1.1 3D Skeleton‐based Action Recognition

  • 用途:基于骨骼的人体动作识别是计算机视觉领域的一个热门研究课题,已广泛应用于视频理解、视频监控、人机交互、机器人视觉、自动驾驶、虚拟现实等领域。
  • 获取方式:近年来,随着三维骨骼数据采集的快速发展,大量基于骨骼数据的动作识别研究涌现出来。骨骼数据由多个时空骨骼关节的三维坐标组成,是运动动力学的有效表示。它不仅可以通过低成本的深度传感器轻松采集,而且可以通过基于视频的位姿估计算法直接从二维图像中获取,因此引起了广泛的关注。
  • 优势:与RGB和光流相比,骨架数据由于数据量较小,具有计算效率高的优势。此外,骨架数据对光照变化和背景噪声具有鲁棒性,对相机视图具有不变性。动态骨骼通常承载着丰富而重要的信息,是外观和光流的补充。
  • 挑战:动作识别的挑战之一是如何正确建模时空信息。
    一方面,在以往的许多三维动作识别方法中,词包模型(bag‐of‐words model)往往过于强调空间信息。
    另一方面,一些基于隐马尔可夫模型(HMM)或递归神经网络的方法(RNN)可能过分强调时间信息,专注于设计手工制作的特征描述符[1,2]来为序列中的时间动态建模。
  • 传统方法缺点:手工制作的特征总是很肤浅,并且依赖于数据集。
  • 深度学习方法:深度学习架构可以学习层次表示来进行模式识别,并在许多模式识别任务中显示出令人印象深刻的结果。
    在这里插入图片描述
  • 基于深度学习的方法包括基于CNN, RNN, GCN的方法,与传统方法相比,其优缺点如下:
    (1)传统方法:传统的基于骨骼的动作识别被认为是一个时间问题,通常需要从一定的骨骼序列中提取运动模式,导致大量的研究集中在手工特征上。然而,手工制作的特征总是肤浅的,并且依赖于数据集。
    (2)基于RNN方法:对于基于RNN的方法,骨架序列是关节坐标位置的自然时间序列,可以看作是一个序列向量( sequence vector ),而RNN本身由于其独特的结构适合处理时间序列数据。尽管基于RNN的方法有很好的效果,但这种方法缺乏有效学习骨骼关节之间空间关系的能力。
    (3)基于CNN方法:为了明确地探索空间信息,许多研究者将骨架关节编码为多个二维伪图像(2D pseudo‐images)。用于提供基于CNN的方法的表示方式具有从二维数组学习结构信息的自然能力(即,它们从骨骼关节学习空间关系)的优势。
    (4)基于GCN方法:骨骼在非欧几里得空间中自然地构成一个图形,其关节为顶点,其在人体中的自然连接为边。以往的方法不能利用骨架数据的图结构,难以推广到任意形式的骨架。基于GCN的模型建立在骨架图(skeleton graphs)序列的基础上,能够尽可能多地挖掘空间域和时间域的判别信息。

猜你喜欢

转载自blog.csdn.net/gaoqing_dream163/article/details/124950067