斯坦福吴佳俊团队新作:一张图or文字生成无限3D世界!网友直呼:难以置信。。。...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【视觉和Transformer】微信交流群

扫码加入CVer学术星球可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

283658a77cd6708be9122e424d03964d.jpeg

转载自:量子位(QbitAI) | 西风 发自 凹非寺

斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作!

仅用一张图or一段文字就能沿相机轨迹生成无限连贯3D场景

b3d956dc45ad04071fe0d1b919e20689.gif

只需输入一段古诗词,诗中场景立刻映入眼帘:

80e31f8dda51da11360a4fc98604782b.gif

而且还是来回式的,可以再倒回去的那种:

扫描二维码关注公众号,回复: 17138411 查看本文章

5f97ba527bb0abfadfb6c1e613cc20ef.gif

同一起点可以进入不同场景:

89f3c8b73f518e838b5766e6e4c025b5.gif

真实场景也可以,其中的人物阴影等细节都毫无违和感:

f521388aa65554cded7ed9b963c1a2a7.gif

方块世界更不在话下,仿佛打开了“我的世界”:

607daf89af7791194f397d322b7ddb8a.gif

这项工作名为WonderJourney,由斯坦福吴佳俊团队和谷歌研究院联合打造。

f2bef0e680b67f57038d42145ffad2ca.png

除了可以从任意位置开始,无限生成多样化且连贯的3D场景,WonderJourney根据文本描述生成时,可控性也很高。

只要将鼠标悬停在视频上,就可以暂停自动滑动。

这项工作的发布让网友们直呼“难以置信”。项目代码还没正式发布,就收获了200+星:

e9c27929de658329fa4c492dc483ce76.png

AI研究员Xander Steenbrugge惊讶之余表示:

这是生成式AI和传统3D技术的完美结合。

af4ec6e72687d6f4cb446ce2a95ab108.png

要知道,之前的工作都是专注于单一类型场景,WonderJourney可谓打开了新世界的大门。

那这究竟是如何做到的?

开启3D奇妙之旅

生成无限连贯3D场景要解决的一大难题是:如何在保持元素多样性的同时,生成符合逻辑的场景元素组合。

这当中需要判断将要生成的元素空间位置的合理性,还需要处理好新旧场景的遮挡关系、视差等几何关系。

可以看到WonderJourney在这方面的处理上非常细致:

25bfe92ec179ca9f5a7dfc4a8f112a6d.gif

无论什么风格都能轻松驾驭:

17f60e181bf480f6f5a338291c706f4a.gif

能够做到这些,关键在于WonderJourney的模块化流程。

总的生成过程分为“确定要生成什么对象”、“把这些对象放在哪里”、“这些场景如何在几何上连接”三步。

需要以下三个模块配合完成:

  • Scene description generation:使用大语言模型(LLM)根据当前场景生成下一个场景的文本描述。

  • Visual scene generation:将文本描述转换为3D点云表示的场景。

  • Visual validation:使用VLM验证生成的场景,检测到不合理的结果启动重新生成。

700a1c061764e99040d8c2ae7e20a28c.png

具体来说,在Scene description generation模块,使用预训练好的LLM输入当前场景描述,通过自回归生成下一个场景,其中包含风格、物体、背景三部分的描述。

此外,还要将自然语言描述进行词类过滤,只保留名词和形容词;每生成一个新场景描述,会更新场景描述记忆。

在Visual scene generation模块,先是将当前图像/文本转换为3D点云表示。

e9fc1b50e147bab97d0eba6f2526bc14.png

然后使用depth refinement增强对象边界的depth不连续性,通俗来讲就是让边界两侧的深度对比更加明显,从而使过渡更加逼真。

之后使用text-guided inpainting基于文本描述生成新场景图像。

研究人员还设计了depth consistency loss和re-rendering consistency机制改进新旧场景遮挡和点云对齐。

最后Visual validation模块,使用VLM提示检测生成图像中的不好的结果,比如画框、模糊等,如果检测到则重新生成场景。

值得一提的是,这三个模块都可用最先进的预训练模型实现、替换,所以不需要任何训练。

实验测试

由于连贯3D场景生成是一个没有现有可用数据集的新任务,所以研究人员在实验中使用了自己拍摄的照片、来自在线无版权的照片以及生成的图片进行了评估。

此外,使用了两种最先进的连续视图生成方法作为基准:基于图像的InfiniteNature-Zero和基于文本的SceneScape。

定性结果展示了从不同类型输入生成的连贯3D场景序列效果,表明方法可以从任何输入开始生成:

9deebd40fb3ff7cbe2ed2cf783018920.png

此外,同一输入可生成不同输出,表明方法具有多样性:

addee6178e931d4ad071bed2690cda16.png

研究人员还从生成效果多样性、视觉质量、场景复杂度和有趣度这4个方面进行了人类偏好评估。

22f07dd5c5bde5d4964df339e9a670f3.png

结果WonderJourney方法明显优于InfiniteNature-Zero、SceneScape。

405b8e651e7f25409c5c2ad299345a92.png

作者简介

该篇论文来自斯坦福大学吴佳俊团队和谷歌研究院。

论文一作俞洪兴,斯坦福大学四年级博士生,导师吴佳俊。

ba3427b47da928156499c0f0a1ada1b9.png

主要研究领域为物理场景理解和动态建模。

俞洪兴曾在谷歌研究院实习,论文部分工作是在实习期间完成。

吴佳俊,现任斯坦福大学助理教授,隶属于斯坦福视觉与学习实验室 (SVL)和斯坦福人工智能实验室 (SAIL)。

在麻省理工学院完成博士学位,本科毕业于清华大学姚班,曾被誉为“清华十大学神之一”。

306f7394579d1a0032be53434a3ad8d8.png

论文链接:https://arxiv.org/abs/2312.03884

参考链接:
[1]https://twitter.com/koven_yu/status/1733192368508322080
[2]kovenyu.com/wonderjourney/

CVPR / ICCV 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
计算机视觉和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
  
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
  
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看ccb9a6a9dd3ea5bfe34dfb3fef800389.gif

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/135028236
今日推荐