视频异常检测 | UBnormal: New Benchmark for Supervised Open-Set Video Anomaly Detection

Acsintoae, A., Florescu, A., Georgescu, M., Mare, T., Sumedrea, P., Ionescu, R.T., Khan, F.S., & Shah, M. (2021). UBnormal: New Benchmark for Supervised Open-Set Video Anomaly Detection. ArXiv, abs/2111.08644.

Paper: https://arxiv.org/abs/2111.08644 

Code:GitHub - lilygeorgescu/UBnormal: UBnormal: New Benchmark for Supervised Open-Set Video Anomaly Detection 

UBnormal is a new supervised open-set benchmark composed of multiple virtual scenes for video anomaly detection. Unlike existing data sets, we introduce abnormal events annotated at the pixel level at training time, for the first time enabling the use of fully-supervised learning methods for abnormal event detection. To preserve the typical open-set formulation, we make sure to include disjoint sets of anomaly types in our training and test collections of videos.

视频异常检测这项任务的困难源于两个相互依赖的方面: (i)异常依赖于上下文,(ii)缺乏异常训练数据对于(i),举个例子,一辆车在大街上开是正常的,而在步行区开车就不正常了。实际上对上下文的依赖本质上是因为异常的不可预测性

在最近的文献中,我们确定了两种不同的公式来处理视频异常检测任务的难度。

1.将异常检测视为一类分类(one-class classification)(或离群点检测)任务。

 训练视频只包含正常事件,而测试视频包含正常和异常事件。在这种情况下,方法从熟悉的事件中学习正态性模型,在推理时将不熟悉的事件标记为异常。虽然将异常检测作为一个异常检测任务保留了异常类型的开放集(open-set)特征,但是根据这种表述提出的模型通常获得较低的性能率,因为它们缺乏对异常例子的了解

2.将异常检测视为弱监督动作识别任务。

扫描二维码关注公众号,回复: 14582211 查看本文章

训练视频包含正常和异常事件,但是在视频级别提供了注释。 这种视为识别的任务具有的是闭集(closed-set)的特性,其中训练和测试异常属于相同的动作类别,无法测试系统在检测未知异常类型时的能力

因此,本文提出了一种新的公式,将视频异常检测帧作为有监督的开集分类问题在我们的公式中,正常和异常事件在训练时都可用,但在推断时发生的异常属于一组不同的异常类型(不同于训练时的异常类别)。将异常检测作为有监督的开放集问题的主要优点有:(i) 由于训练时异常的可用性,允许使用完全监督的模型;(ii)由于在训练和测试时使用不相交的异常类别集,能在意外异常类型下的模型评估,(iii)能够在一类开集方法和弱监督闭集方法之间进行公平比较。

我们的场景是在Cinema 4D中使用虚拟动画角色和对象生成的,这些字符和对象放置在现实世界背景中。如图1中所示。

主要贡献: 

  • 我们将视频异常检测作为一个有监督的开放集任务,引入了一个包含29个虚拟场景、236,902个视频帧的新数据集UBnormal
  • 我们证明异常训练视频有助于各种最先进的异常事件检测模型
  • 我们进行了一项以数据为中心的研究,表明在Avenue和ShanghaiTech两个自然场景数据集上,UBnormal 数据可以为最新的技术方法[17]带来性能提升。

目前的一些数据集对比:

UBnormal Benchmark

我们是第一个提出监督开集异常检测基准的团队。我们考虑了几个因素,证明需要一个新的异常检测基准。

  1. 首先,与现有的数据集不同,我们的基准测试在训练集中包含像素级注释的异常(自然也有视频级的注释)训练集中的异常类型与测试集中的异常类型不同,符合open-set约束。
  2. 其次,现有的数据集都没有验证集,这是许多依赖超参数调优的机器学习算法的强制性要求。这就留下了两种选择,要么根据测试数据调优模型,本质上过度拟合模型到测试集,要么避免超参数调优,可能会导致次优结果。与现有基准测试相比,我们是第一个提供验证集的。它包含与测试时可用的异常类别集不同的类别集的异常。这确保了在不过度拟合测试集的情况下进行模型调优的可能性。
  3. 第三,现有的一些数据集,如UCSD Ped[37]和UMN[38],已经饱和(在帧级AUC方面性能超过99%),而在其他基准上的性能,如Avenue[33]和Subway[1],在帧级AUC方面性能超过90%。例如,在Avenue上[18]报告的结果(微AUC为92.3%)和UCSD Ped2报告的结果(微AUC为98.7%)明显高于在unormal数据集上采用相同方法得到的结果(微AUC为59.3%)。

Scenes

UBnormal Benchmark是使用Cinema4D软件生成的,该软件允许我们使用2D背景图像和3D动画创建场景。我们选择了29张代表街道、火车站、办公室等场景的自然图片。在选定的背景图像中,我们确保排除了应该属于前景的人、车或其他物体。从每个自然图像,我们创建一个虚拟的3D场景,并生成(平均)19个视频每个场景。对于每个场景,我们分别生成正常和异常的视频。在整个异常数据集中,正常视频和异常视频的比例接近1:1。 

Action categories

对于我们所有的视频场景,我们认为以下事件是正常的:走路、打电话、边走边发短信、站着、坐着、大喊大叫以及与他人交谈。此外,我们还介绍了22种异常事件类型,分别为:跑步、摔倒、打架、睡觉、爬行、癫痫发作、躺下、跳舞、偷窃、360度旋转、洗牌、走路受伤、醉酒行走、跌跌撞撞、人与车祸、车祸、跑步受伤、火灾、烟雾、乱穿马路、车道外驾驶、跳跃。我们组织异常事件类型,使测试集中包含的异常事件类型与训练和验证集中发现的异常事件类型不同。因此,测试集包括以下异常:跑步、癫痫发作、躺下、拖着脚走路、醉酒行走、人与车祸、车祸、跳跃、火灾、烟雾、乱穿马路和在车道外驾驶。训练集包含以下异常:跌倒、跳舞、步行受伤、跑步受伤、爬行和跌跌撞撞。其余异常被添加到验证集。 

Variety

为了增加数据集的多样性,我们包含了多个对象类别,如人、汽车、滑板、自行车和摩托车。与其他数据集(CUHK Avenue [33], ShanghaiTech [35], UCSD Ped[37])不同,这些对象可以执行正常和异常动作,从而在正常和异常视频中都存在。因此,仅仅因为一个对象属于一个看不见的类别而将其标记为异常是不可能的。为了进一步增加数据集的多样性,我们将雾天场景、夜景、火灾和烟雾作为异常事件。在现有的数据集中,一个人或一小群人执行大多数异常操作。 用了19个不同的角色来制作视频动画。我们还改变他们衣服的颜色或头发的颜色,增加动画角色的多样性,包括在我们的基准。

Data generation and annotation

对异常数据集中的异常进行像素级标注。对于数据集中每一个合成对象(正常或异常),我们都提供了分割掩码和对象标签(人、车、自行车、摩托车或滑板)。在模拟事件和生成基准的过程中,我们让一个6人的团队参与了三个月的时间。我们生成的所有视频都是30帧/秒,帧的最小高度设置为720像素。使用Cinema4D软件渲染一帧大约需要15秒,渲染整个数据集总共需要987小时(41.1天)。在生成视频后,我们团队的四名成员检查每个生成的视频是否有不正确的遮挡、重力相关的问题或其他视觉上的不一致,确保了生成的数据集的高质量。

Experiments 

分别在以下不同方式下进行了实验验证。

One-class open-set model. 

[18] Mariana Iuliana Georgescu, Radu Ionescu, Fahad Shahbaz Khan, Marius Popescu, and Mubarak Shah. A Background-Agnostic Framework with Adversarial Training for Abnormal Event Detection in Video. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.

在我们的第一个实验中,我们使用框架[18]作为基准,没有做任何修改。然后,将训练数据集中的异常样本加入伪异常样本池。

Supervised closed-set model 

[53] Waqas Sultani, Chen Chen, and Mubarak Shah. Real-World Anomaly Detection in Surveillance Videos. In Proceedings of CVPR, pages 6479–6488, 2018.

作为另一个基线,我们考虑了Sultani等人提出的监督闭集模型[53]。在[53]框架中,正常和异常的视频被表示为包,视频片段是多实例学习中的实例。

Action recognition framework 

[6] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. Is Space-Time Attention All You Need for Video Understanding? In Proceedings of ICML, 2021.

我们的基准的第三个基线是一个动作识别模型。我们选择了Bertasius等人提出的最先进的模型。我们训练TimeSformer模型来区分正常和异常动作。该模型预测一系列帧出现异常的概率。 

在表2中,我们报告了[6,18,53]在我们的基准的验证和测试集上获得的结果。

Self-supervised multi-task model. 

[17] Mariana-Iuliana Georgescu, Antonio Barbalau, Radu Tudor Ionescu, Fahad Shahbaz Khan, Marius Popescu, and Mubarak Shah. Anomaly Detection in Video via Self-Supervised and Multi-Task Learning. In Proceedings of CVPR, pages 12742–12752, 2021.

Georgescu et al.[17]的对象级方法是基于在四个代理任务上学习单个3D卷积神经网络(CNN),分别是时间箭头、运动不规则性、中间框预测和模型蒸馏。进一步,我们集成了第5个代理任务(T5)来区分异常数据集中的正常和异常对象。 我们考虑了两种选择:(i)直接在unormal示例上训练模型,(ii)在训练第五个代理任务之前,通过CycleGAN[72]传递训练时只看到的对象。(在图2中,我们展示了应用CycleGAN之前和之后的一些转换对象的示例。)

设 为共享的3D CNN, h(T5)为我们的异常头部。设X(T5)为大小为(2·t + 1) × 64 × 64 × 3的正常或异常以物体为中心的序列。我们采用交叉熵损失来训练异常头:

表3和表4中我们报告了 【17】在香港中文大学 Avenue 数据集和 ShanghaiTech 的结果。

 Conclusion

 在这项工作中,我们引入了一种新的视频异常检测基准——UBnormal。据我们所知,这是第一个也是唯一一个用于监督开集异常检测的基准。也许UBnormal 的唯一限制便是它是由虚拟角色和模拟行动所组成。然而,我们展示了几个重要的好处,证明了UBnormal的重要性:(i)它能够公平地对开放集和封闭集模型进行正面比较,(ii)它可以缓解现实数据集中缺乏训练异常的问题,与当前最先进的模型相比带来了显著的改进

猜你喜欢

转载自blog.csdn.net/qq_63019407/article/details/126421429