宣布 Objectron 数据集

视频介绍：宣布 Objectron 数据集

机器学习 (ML) 的最新技术仅通过在照片上训练模型就在许多计算机视觉任务上取得了非凡的准确性。建立在这些成功的基础上并推进 3D 对象理解具有为更广泛的应用提供动力的巨大潜力，例如增强现实、机器人、自主和图像检索。例如，今年早些时候，我们发布了MediaPipe Objectron，这是一组专为移动设备设计的实时 3D 对象检测模型，它们在完全注释的真实 3D 数据集上进行了训练，可以预测对象的 3D 边界框。

然而，与 2D 任务（例如ImageNet、COCO和Open Images）相比，由于缺乏大型真实世界数据集，因此理解 3D 对象仍然是一项具有挑战性的任务。为了使研究社区能够在 3D 对象理解方面不断进步，迫切需要发布以对象为中心的视频数据集，它可以捕获更多对象的 3D 结构，同时匹配用于许多视觉任务的数据格式（即视频或相机流），以帮助机器学习模型的训练和基准测试。

今天，我们很高兴发布Objectron 数据集，这是一个以对象为中心的简短视频剪辑的集合，从不同角度捕获了更多的常见对象。每个视频剪辑都伴随着 AR 会话元数据，其中包括相机姿势和稀疏点云。数据还包含每个对象的手动注释 3D 边界框，它们描述了对象的位置、方向和尺寸。该数据集由 15K 带注释的视频剪辑组成，辅以从地理多样化样本（涵盖五大洲的 10 个国家）收集的超过 400 万张带注释的图像。

3D 对象检测解决方案

除了数据集，我们还分享了适用于四类对象的3D 对象检测解决方案——鞋子、椅子、杯子和相机。这些模型在MediaPipe中发布，MediaPipe是谷歌的开源框架，用于实时和流媒体的跨平台可定制 ML 解决方案，它还支持设备上的实时手部、虹膜和身体姿势跟踪等ML 解决方案。

与之前发布的单级 Objectron 模型相比，这些最新版本采用了两级架构。第一阶段使用TensorFlow 对象检测模型来查找对象的 2D 裁剪。然后第二阶段使用图像裁剪来估计 3D 边界框，同时为下一帧计算对象的 2D 裁剪，因此对象检测器不需要运行每一帧。第二阶段 3D 边界框预测器在 Adreno 650 移动 GPU 上以 83 FPS 运行。

file

3D 对象检测的评估指标

使用地面实况注释，我们使用 3D并集交集(IoU) 相似性统计来评估 3D 对象检测模型的性能，这是计算机视觉任务的常用指标，可测量边界框与目标的接近程度地面真相。

我们提出了一种算法，用于计算一般面向 3D 的框的准确 3D IoU 值。首先，我们使用Sutherland-Hodgman 多边形裁剪算法计算两个框的面之间的交点。这类似于平截头体剔除，一种在计算机图形中使用的技术。交集的体积由所有裁剪多边形的凸包计算。最后，IoU 由两个框的交集体积和并集体积计算。我们将与数据集一起发布评估指标源代码。

数据集格式

Objectron 数据集的技术细节，包括用法和教程，可在数据集网站上找到。该数据集包括自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子，并存储在Google Cloud 存储上的objectron 存储桶中，其中包含以下资产：

视频序列
注释标签（对象的 3D 边界框）
AR 元数据（例如相机姿势、点云和平面）
处理后的数据集：带注释的帧的混洗版本，图像为 tf.example 格式，视频为 SequenceExample 格式。
支持脚本根据上述指标运行评估
支持将数据加载到Tensorflow、PyTorch和 Jax并可视化数据集的脚本，包括“Hello World”示例

对于数据集，我们还开源了一个数据管道，用于在流行的 Tensorflow、PyTorch 和 Jax 框架中解析数据集。还提供了示例colab 笔记本。

通过发布这个 Objectron 数据集，我们希望使研究社区能够突破 3D 对象几何理解的极限。我们还希望促进新的研究和应用，例如视图合成、改进的 3D 表示和无监督学习。

更新说明：优先更新微信公众号“雨夜的博客”，后更新博客，之后才会陆续分发到各个平台，如果先提前了解更多，请关注微信公众号“雨夜的博客”。

博客来源：雨夜的博客