1.论文启发点详细内容(文+图)
这是一个包含 800K+(并且还在不断增长)的 3D 模型的大型对象数据集,带有描述性标题、标签和动画。
图 2:CLIP L/14 嵌入在渲染对象子集上的 t-SNE 投影。与 Objaverse 1.0(橙色)相比,Objaverse-XL 更密集地捕获 3D 资产的分布。
表1:常用数据集中的3D模型数量。Objaverse-XL 比以前的数据集大一个数量级以上。
图 :wild图像上的新视图合成。在 Objaverse-XL 上训练的 Zero123-XL 和在 Objaverse 上训练的 Zero123 之间的比较。从输入视图开始,任务是在特定相机姿态转换下生成对象的图像。相机姿势显示在每个示例旁边。通过使用更多数据进行训练可以发现显着的改进,特别是对于包括人物(1 st 行)、动漫(2 nd 行)、卡通(3 rd 行)、家具(4 th 行)和素描(5 th 行)在内的类别。此外,视点控制也得到了显著改进(见第 2 nd 行)。
2.论文摘要
Objaverse:
WebText、Wikipedia、Conceptual Captions、WebImageText 和 LAION 等海量数据语料库推动了 AI 最近的巨大进步。在此类数据集上训练的大型神经模型产生了令人印象深刻的结果,并在当今的许多基准测试中名列前茅。在这一系列大规模数据集中,一个值得注意的遗漏是 3D 数据。尽管在3D视觉方面有相当大的兴趣和潜在的应用,但高保真3D模型的数据集仍然是中等规模的,对象类别的多样性有限。为了弥补这一差距,我们推出了 Objaverse 1.0,这是一个包含 800K+(并且还在不断增长)的 3D 模型的大型对象数据集,带有描述性标题、标签和动画。Objaverse 在规模、类别数量和类别内实例的视觉多样性方面改进了当今的 3D 存储库。我们通过四个不同的应用展示了 Objaverse 的巨大潜力:训练生成式 3D 模型、改进 LVIS 基准测试上的尾部类别分割、为具身 AI 训练开放词汇表对象导航模型,以及为视觉模型的鲁棒性分析创建新的基准。Objaverse可以为研究开辟新的方向,并在整个人工智能领域实现新的应用。
Objaverse-XL:
自然语言处理和 2D 视觉模型在许多任务上都取得了非凡的熟练程度,主要是通过升级训练数据的规模。然而,3D视觉任务并没有取得同样的进展,部分原因是获取高质量3D数据的挑战。在这项工作中,我们展示了 Objaverse-XL,这是一个包含超过 1000 万个 3D 对象的数据集。我们的数据集包括来自各种来源的去重 3D 对象,包括手动设计的对象、地标和日常用品的摄影测量扫描,以及历史和古董文物的专业扫描。Objaverse-XL 代表了 3D 数据集领域中最大的规模和多样性,为 3D 视觉提供了重要的新可能性。我们的实验证明了 Objaverse-XL 提供的量表所实现的改进。我们表明,通过训练 Zero123 进行新颖的视图合成,利用超过 1 亿个多视图渲染图像,我们实现了强大的零样本泛化能力。我们希望 Objaverse-XL 的发布能够实现大规模 3D 视觉领域的进一步创新。
3.与启发点相关内容
论文原文:
https://arxiv.org/abs/2212.08051
数据集位置:
https://objaverse.allenai.org/
论文升级:
Objaverse-XL:10M+ 3D 对象的宇宙