论文笔记之Learning Asynchronous and Sparse Human-Object Interaction in Videos

视频中人物交互活动是稀疏的、异步的,且相互影响。本文提出稀疏异步交互图网络ASSIGN来识别视频中的交互。
CVPR2021

1. 总述

已有方法预设视频中活动的时间结构,限制了活动检测的灵活性,本文发现活动的时间结构和内容是紧密耦合的,可以在联合检测中相互支持以获得最优解。所以本文引入异步稀疏交互图网络ASSIGN来同时进行时序结构的检测和活动内容的检测。异步代表着更灵活地适应复杂的场景;稀疏代表着更关注于内容本身。

ASSIGN的原则是,每个交互活动实体在视频中都有独立的生命,在视频中,它以自己的节奏和时间与共存的邻居进行互动。这种灵活的时间结构和事件的内容标签是使用两层动态图网络联合发现的,该网络可以进行推理和端到端的训练,不依赖于外部的分割标签或预处理。

2. 网络结构

在这里插入图片描述
在每一层,图形节点表示人(圆)或物体(三角形)实体。空间边缘通过消息传递(蓝色曲线箭头)建模,时间边缘通过循环网络(水平线)建模。ASSIGN的帧级别在每个实体的每个时间步都会更新,并在每个步骤(向上箭头)决定相应的段级别实体是更改(实心菱形)还是跳过(空心菱形)。稀疏变化信号导致异步和稀疏更新(实心形状)和交互(蓝色曲线箭头),线段的标签由第二层的update操作符生成。

对于每一帧
在这里插入图片描述
帧级节点(仅对人体节点e1-圆进行放大和细化),带有BiRNN单元(矩形)和分段边界检测器(菱形)。检测器考虑来自循环单元的当前状态和来自相邻节点(蓝色曲线箭头)的消息,并通过注意机制(箭头的厚度)进行加权。然后,它对帧t是否是每个实体的段的最终帧作出判断 u t 1 u_t^1 ut1。如果是正信号( u t 1 = 1 u_t^1=1 ut1=1),则将总结的上下文 h t , f 1 h_{t,f}^1 ht,f1发送到段级节点以预测最终段的标签并开始新的标签。

帧级图节点处理视频帧并在每个时间步更新其状态,而段级节点仅在帧级邻居发出信号时稀疏地更新。每个实体在考虑到其邻居的情况下异步地决定自己的速度。

ASSIGN的主要任务是学习视频中每个实体的时间分割。这就转化为在每个时间步做出一个二进制决策,决定当前段是否结束,新段是否开始。

最后,将当前的时间循环状态与空间关系信息结合起来进行分割决策。这是由段边界检测器完成的(上图中的菱形)。

3. 实验结果

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/haha0825/article/details/114701288