Holistic Video Understanding(HVU) 数据集详解

文章目录

0. 前言

一句话总结：HVU通过更全面的标签（scene/environment, objects, actions, events, attributes, concepts）来描述视频信息。
这个数据集的名字直译是“全面的视频理解数据集”，意思就是探索视频理解领域能有哪些应用，不是单一任务的数据集。
官方资料：官网，论文（ECCV 2020），补充材料，Github
参考博客
获取（数据有500+G）：
- youtube-dl自行下载：官方提供了repo，跟着README下载就行了。其中标签文件可以在另外一个repo中下载得到。
- 向作者申请已经下好的数据。
之前数据集存在的问题：
- 视频相关数据集主要句现在人类行为或体育赛事上，这些其实只是视频相关任务中一个非常具体的问题。
- 其实，视频理解包含了很多方面的识别，比如场景/环境（a scene or an environment）、objects（物体）、actions（行为）、events（事件）、attributes（属性）、concepts（概念）。我们现在一般只关注行为。
- attribute类似于形容词、副词，形容其他scenes/actions/objects/events
- concept我也不知道该怎么翻译，
The concept category refers to any noun and label which present a grouping definition or related higher level in the taxonomy tree for labels of other categories.

1. 概况

论文中对数据集的描述：这句话我也翻译不好，还是看原文吧，关键字就是（hierarchically、 multi-label、multi-task）

HVU is organized hierarchically in a semantic taxonomy that focuses on multi-label and multi-task video understanding as a comprehensive problem that encompasses the recognition of multiple semantic aspects in the dynamic scene

主要关注三个任务
- 视频分类（Video classification）
- 视频描述（Video Captioning）
- 视频聚类（Video Clustering）
数据量：
- 视频数量：训练集/验证集/测试集分别有476k/31k/65k样本，共572k视频
- 标签：训练集、验证集、测试集分别有7.5M/600k/1.3M标签。
- 类别数量：共3142类，平均一类有2112个标注数据。细分分类：248 categories for scenes, 1678 for objects, 739 for actions, 69 for events, 117 for attributes and 291 for concepts。
  - 这些类别太多了，放在文中不太合适，github上可以直接看到，参考这里
  - 不同类样本之间的关系如下图与下表
与其他常见视频理解数据集的对比

2. 详解

标签文件介绍
- HVU_Tags_Categories_V1.0.csv：类别文件，分为两列（Tag和Category），前者表示具体类别名称，后者六选一 action/attributes/concept/event/object/scene。
- 标签所在文件：HVU_Train_V1.0.csv和HVU_Val_V1.0.csv
  - 一共有四列，分别是Tags, youtube_id, time_start, time_end
  - 四列分别是标签（多个标签，每个标签之间通过 | 分割），样本编号（即从youtube上下载时的youtube id）、起始时间（应该是原始样本中的时间起点，即切割前的视频）、与截止时间（应该是原始样本中的时间点，即切割前的视频）。
数据采集以及标注过程
- 一般视频数据集构建分为两个步骤，数据采集以及数据标注。
- HVU的数据采集：主要使用已有的行为识别数据集作为数据源，例如YouTube-8M、Kinetics-600、HACS
  - 使用已有数据集有很多好处，第一是不用考虑版权与隐私问题，第二是测试集与训练集不会重复。
- HVU的数据标注
  - 行为识别数据集标注主要有两个问题，一是手工标注容易出错，毕竟标签多、标注者也很难关注到所有细节，二是标注费时费力。
  - 为了缓解上面的问题，HVU先使用了Google Vision API以及Video Tagging API进行标注，每个视频30个tags，再进行人工验证。
- 论文中有补充材料，介绍了人工标注细节（Human Annotation Details）
Taxonomy：直译是“分类法”，总而言之，就是类别如何来的。
- 使用了Google以及Sensifai的API，所有获取的tags有大约8000个。
- 去除样本不均衡的标签（我也不知道啥意思，大概是样本很少的那些标签？）

Holistic Video Understanding(HVU) 数据集详解

文章目录

0. 前言

1. 概况

2. 详解

猜你喜欢