谷歌最新发布数据集：Open Images V6 来了！新增局部叙事标注形式

谷歌于2020年2月26日正式发布 Open Images V6，增加大量新的视觉关系标注、人体动作标注，同时还添加了局部叙事（localized narratives）新标注形式，即图像上附带语音、文本和鼠标轨迹等标注信息。

在许多方面，Open Images 都是最大的带标注的图像数据集，可用于训练计算机视觉任务的最新深层卷积神经网络。随着去年5月发布的第5版，Open Images 数据集包括900万幅图像，这些图像标注了3600万幅图像级标签，1580万个边界框，280万个实例分割和391k个视觉关系。连同数据集本身，相关的“Open Images Challenges”激发了目标检测，实例分割和视觉关系检测方面的最新进展。

Open Images V6

谷歌在2020年2月26日宣布发布Open Images V6，该版本通过大量新的视觉关系（例如“狗抓飞盘”），人体动作标注（例如，“woman jumping”和图片级标签（例如“paisley”）。值得注意的是，此版本还添加了局部叙事，这是一种全新的多模式注释形式，包括在所描述对象上的同步语音，文本和鼠标轨迹。在Open Images V6中，这些局部的叙述适用于其500k的图像。此外，为了便于与以前的作品进行比较，我们还发布了COCO数据集的完整123k图像的局部叙事标注。

数据集链接：https://storage.googleapis.com/openimages/web/index.html

Sample of localized narratives

局部叙事（Localized Narratives）

Localized narratives 的动机之一是研究和利用视觉和语言之间的联系，通常通过图像描述（image captioning）来完成-图像与人类对其内容的文字描述配对。但是，图像描述的局限性之一是缺乏视觉基础，即文本描述中图像words的局部化。为了减轻这种情况，一些先前的著作对描述中存在的名词进行了后验绘制。相反，在局部叙事中，文字描述中的每个单词都是有局部(位置信息)的。

标注是提供图像的语音描述，同时将鼠标移至要描述的区域上。语音标注是我们方法的核心，因为它直接将描述与其所引用图像的区域联系起来。为了使描述更易于访问，标注者需要手动转录了他们的描述，然后与自动语音转录结果对齐。这将恢复描述的时间戳，确保三种方式（语音，文本和鼠标跟踪）正确且同步。

总结

Open Images V6是改进图像分类，目标检测，视觉关系检测和实例分割的统一标注数据集，并且采用新颖的方法将视觉和语言与局部叙事联系起来。谷歌希望Open Images V6能够进一步帮助现有技术对真实场景的理解。

喜欢打酱油的老鸟博客专家

发布了469 篇原创文章 · 获赞 718 · 访问量 151万+

他的留言板关注