Dense-Captioning Events in Videos

每天一分钟,带你读遍机器人顶级会议文章
标题:Dense-Captioning Events in Videos
作者:Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, Juan Carlos Niebles
来源:International Conference on Computer Vision (ICCV 2017
编译:博主
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权


摘要

常规的视频通过会包含大量的事件(Event)。举个例子,如果在一个视频中有事件“一个人弹钢琴”,那么很有可能也有事件“另一个人在跳舞”,或者事件“一群人在鼓掌”。
为此,本文提出了视频多事件描述任务,内容包括同时检测和描述视频中事件。针对该任务,本文提出了一个新的模型,能够“看一次”视频即可检测出该视频中的事件,并同时用自然语言加以描述。本文的模型改善了一个已有的建议模型(proposal module),能够更好的在视频中检测事件,保证在视频更短的情况下保证事件的完整,而不是用更长的视频来描述事件。同时为了获取视频中之间的相互关系,本文的模型还充分使用了上下文信息,用事件前和事件后的信息来同时描述事件。
除此之外,本文还提出了ActivityNet Captions数据集,专用于视频多事件描述任务测评。ActivityNet Captions包括2万条视频,共计849小时的视频和10万条事件描述信息(包括事件的发生时间和结束时间)。当然,文章也介绍了本文的模型在该数据集上的表现。

这里写图片描述
图1 视频多事件描述的主要任务包括检测事件和描述事件。事件在视频中都有独立的开始时间和结束时间,但是时间节点都会有重叠关系。
这里写图片描述
图2 本文所使用的算法的主要流程。该方法首先提取C3D特征,然后用建议网络来检测事件,最后再从事件中生成买描述文本。
这里写图片描述
图3 ActivityNet Cpations数据集与Visual Genome的区别。Visual Genome是一个针对图片描述的数据集。通过两个数据集的对比可以发现,ActivityNet Captions的描述中包含更多的动词,表明ActivityNet Captions更针对事件描述,而Visual Genome更针对物体描述。
这里写图片描述
图4 本图展示了本文模型的结果。最左侧是输入视频,然后以此是Ground Truth,不使用上下文信息的结果和使用上下文信息的结果。


这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012348774/article/details/80873189