最新AI技术动态概览:从人形机器人到3D模型生成

在这个快速发展的数字时代,人工智能技术的每一次进步都在重新定义我们的生活和工作方式。本文将带您了解近期发布的五项突破性进展,包括英伟达的人形机器人基础模型GR00T N1、LG开源的高级推理模型EXAONE Deep、Stability AI的图片转3D视频工具Stable Virtual Camera、Mistral的新一代文本处理模型Mistral Small 3.1-24B,以及腾讯最新升级的3D模型创作系统混元3D 2.0。

1、GR00T N1:首个人形机器人的开放基础模型

英伟达开源的机器人DiT模型,2B参数,能看和听,能行动。开放了模型和数据集。

官方介绍:2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots

Github:https://github.com/NVIDIA/Isaac-GR00T/

模型:https://huggingface.co/nvidia/GR00T-N1-2B
在这里插入图片描述

在 NVIDIA,正在开发 AI 解决方案,使通用人形机器人能够理解人类世界、遵循语言指令并执行各种任务。强大的视觉-语言-动作 (VLA) 模型对于实现这些高级功能至关重要。为此,开发了 GR00T N1,这是一种通用机器人模型,在包括以自我为中心的人类视频、真实和模拟的机器人轨迹以及合成数据的多样化数据集上进行训练。

GR00T N1 在多个机器人实例的模拟基准测试中超越了最先进的模仿学习模型。此外,它还在 Fourier GR-1 和 1X 类人机器人上展示了有效的语言调节双手操作,以完成家庭任务。在这里插入图片描述

2、LG开源EXAONE Deep模型

LG AI Research 目前正在推出EXAONE Deep,这是一款具有增强推理能力的推理 AI,能够与这些行业领先的模型相媲美。EXAONE Deep 擅长理解数理逻辑、推理科学概念和解决编程问题,这使其成为专门用于高级推理的高性能模型。
目前模型分2.4B、7.8B、32B三个大小,32B的部分评分超过DeepSeek。

模型:https://huggingface.co/collections/LGAI-EXAONE/exaone-deep-67d119918816ec6efa79a4aa

在这里插入图片描述

3、Stability AI发布Stable Virtual Camera:图片生成3D视角视频

关键要点

  • 介绍稳定虚拟相机,目前处于研究预览阶段。此多视图扩散模型可将 2D 图像转换为具有真实深度和透视的沉浸式 3D
    视频,无需复杂的重建或特定场景的优化。
  • 该模型根据用户定义的摄像机轨迹以及 14 条其他动态摄像机路径(包括
    360°、双纽线、螺旋、移动推拉、移动、平移和滚动)从单个输入图像或最多 32 个输入图像生成 3D 视频。

模型:https://huggingface.co/stabilityai/stable-virtual-camera
在这里插入图片描述

4、Mistral开源Mistral-Small-3.1-24B

Mistral Small 3.1:同重量级别中最好的模型。

该新模型以Mistral Small 3为基础,具有改进的文本性能、多模式理解和高达 128k 个标记的扩展上下文窗口。该模型的表现优于 Gemma 3 和 GPT-4o Mini 等同类模型,同时提供每秒 150 个标记的推理速度。

官方介绍:https://mistral.ai/news/mistral-small-3-1

模型:https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
在这里插入图片描述

5、腾讯更新混元3D模型

新发布3D 2.0 MV(多视角效果更好)和3D 2.0 Mini(参数更小)。
混元3D 2.0是一款先进的大规模3D资产创作系统,它可以用于生成承载放大纹理贴图的高保真度3D模型。该系统包含两个基础组件:

  • 一个大规模几何生成模型 — 混元 3D-DiT
  • 一个大规模纹理生成模型 — 混元 3D-Paint。

模型生成模型基于流扩散的扩散模型构建,旨在生成与给定条件图像精确匹配的模型,为应用基础模型。表明纹理生成模型积累了强大的几何和扩散模型先验知识,能够为AI生成的或手工制作的网格模型生成高精度且变异的纹理贴图。另外,我们打造了混元3D功能矩阵,一个功能多样、易于使用的创作平台,简化了3D模型的制作以及修改过程。
它使专业用户和业余爱好者能够快速地对3D模型进行操作,甚至制作动画。我们的系统进行了系统评估,结果混元3D 2.0在几何细节、条件匹配纹理、质量等方面均低于以往最先进的开源以及闭源模型。

Hunyuan3D-2mini:https://huggingface.co/tencent/Hunyuan3D-2mini

Hunyuan3D-2mv:https://huggingface.co/tencent/Hunyuan3D-2mv
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/sexy19910923/article/details/146382631