谷歌最新发布数据集:Open Images V6 来了!新增局部叙事标注形式

谷歌于2020年2月26日正式发布 Open Images V6,增加大量新的视觉关系标注、人体动作标注,同时还添加了局部叙事(localized narratives)新标注形式,即图像上附带语音、文本和鼠标轨迹等标注信息。

在许多方面,Open Images 都是最大的带标注的图像数据集,可用于训练计算机视觉任务的最新深层卷积神经网络。随着去年5月发布的第5版,Open Images 数据集包括900万幅图像,这些图像标注了3600万幅图像级标签,1580万个边界框,280万个实例分割和391k个视觉关系。 连同数据集本身,相关的“Open Images Challenges”激发了目标检测,实例分割和视觉关系检测方面的最新进展。

Open Images V6

谷歌在2020年2月26日宣布发布Open Images V6,该版本通过大量新的视觉关系(例如“狗抓飞盘”),人体动作标注(例如,“woman jumping”和图片级标签(例如“paisley”)。 值得注意的是,此版本还添加了局部叙事,这是一种全新的多模式注释形式,包括在所描述对象上的同步语音,文本和鼠标轨迹。 在Open Images V6中,这些局部的叙述适用于其500k的图像。 此外,为了便于与以前的作品进行比较,我们还发布了COCO数据集的完整123k图像的局部叙事标注。

数据集链接:https://storage.googleapis.com/openimages/web/index.html

Sample of localized narratives

局部叙事(Localized Narratives

Localized narratives 的动机之一是研究和利用视觉和语言之间的联系,通常通过图像描述(image captioning)来完成-图像与人类对其内容的文字描述配对。 但是,图像描述的局限性之一是缺乏视觉基础,即文本描述中图像words的局部化。为了减轻这种情况,一些先前的著作对描述中存在的名词进行了后验绘制。 相反,在局部叙事中,文字描述中的每个单词都是有局部(位置信息)的。

标注是提供图像的语音描述,同时将鼠标移至要描述的区域上。语音标注是我们方法的核心,因为它直接将描述与其所引用图像的区域联系起来。为了使描述更易于访问,标注者需要手动转录了他们的描述,然后与自动语音转录结果对齐。 这将恢复描述的时间戳,确保三种方式(语音,文本和鼠标跟踪)正确且同步。

总结

Open Images V6是改进图像分类,目标检测,视觉关系检测和实例分割的统一标注数据集,并且采用新颖的方法将视觉和语言与局部叙事联系起来。 谷歌希望Open Images V6能够进一步帮助现有技术对真实场景的理解。

发布了469 篇原创文章 · 获赞 718 · 访问量 151万+

猜你喜欢

转载自blog.csdn.net/weixin_42137700/article/details/104611484
今日推荐