最新AI技术动态概览：从人形机器人到3D模型生成

业界资讯 2025-04-11 20:55:55 阅读次数: 0

在这个快速发展的数字时代，人工智能技术的每一次进步都在重新定义我们的生活和工作方式。本文将带您了解近期发布的五项突破性进展，包括英伟达的人形机器人基础模型GR00T N1、LG开源的高级推理模型EXAONE Deep、Stability AI的图片转3D视频工具Stable Virtual Camera、Mistral的新一代文本处理模型Mistral Small 3.1-24B，以及腾讯最新升级的3D模型创作系统混元3D 2.0。

1、GR00T N1：首个人形机器人的开放基础模型

英伟达开源的机器人DiT模型，2B参数，能看和听，能行动。开放了模型和数据集。

官方介绍：2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots

Github：https://github.com/NVIDIA/Isaac-GR00T/

模型：https://huggingface.co/nvidia/GR00T-N1-2B
在这里插入图片描述

在 NVIDIA，正在开发 AI 解决方案，使通用人形机器人能够理解人类世界、遵循语言指令并执行各种任务。强大的视觉-语言-动作 (VLA) 模型对于实现这些高级功能至关重要。为此，开发了 GR00T N1，这是一种通用机器人模型，在包括以自我为中心的人类视频、真实和模拟的机器人轨迹以及合成数据的多样化数据集上进行训练。

GR00T N1 在多个机器人实例的模拟基准测试中超越了最先进的模仿学习模型。此外，它还在 Fourier GR-1 和 1X 类人机器人上展示了有效的语言调节双手操作，以完成家庭任务。在这里插入图片描述

2、LG开源EXAONE Deep模型

LG AI Research 目前正在推出EXAONE Deep，这是一款具有增强推理能力的推理 AI，能够与这些行业领先的模型相媲美。EXAONE Deep 擅长理解数理逻辑、推理科学概念和解决编程问题，这使其成为专门用于高级推理的高性能模型。
目前模型分2.4B、7.8B、32B三个大小，32B的部分评分超过DeepSeek。

模型：https://huggingface.co/collections/LGAI-EXAONE/exaone-deep-67d119918816ec6efa79a4aa

在这里插入图片描述

3、Stability AI发布Stable Virtual Camera：图片生成3D视角视频

关键要点

介绍稳定虚拟相机，目前处于研究预览阶段。此多视图扩散模型可将 2D 图像转换为具有真实深度和透视的沉浸式 3D
视频，无需复杂的重建或特定场景的优化。
该模型根据用户定义的摄像机轨迹以及 14 条其他动态摄像机路径（包括
360°、双纽线、螺旋、移动推拉、移动、平移和滚动）从单个输入图像或最多 32 个输入图像生成 3D 视频。

模型：https://huggingface.co/stabilityai/stable-virtual-camera
在这里插入图片描述

4、Mistral开源Mistral-Small-3.1-24B

Mistral Small 3.1：同重量级别中最好的模型。

该新模型以Mistral Small 3为基础，具有改进的文本性能、多模式理解和高达 128k 个标记的扩展上下文窗口。该模型的表现优于 Gemma 3 和 GPT-4o Mini 等同类模型，同时提供每秒 150 个标记的推理速度。

官方介绍：https://mistral.ai/news/mistral-small-3-1

模型：https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
在这里插入图片描述

5、腾讯更新混元3D模型

新发布3D 2.0 MV（多视角效果更好）和3D 2.0 Mini（参数更小）。
混元3D 2.0是一款先进的大规模3D资产创作系统，它可以用于生成承载放大纹理贴图的高保真度3D模型。该系统包含两个基础组件：

一个大规模几何生成模型 — 混元 3D-DiT
一个大规模纹理生成模型 — 混元 3D-Paint。

模型生成模型基于流扩散的扩散模型构建，旨在生成与给定条件图像精确匹配的模型，为应用基础模型。表明纹理生成模型积累了强大的几何和扩散模型先验知识，能够为AI生成的或手工制作的网格模型生成高精度且变异的纹理贴图。另外，我们打造了混元3D功能矩阵，一个功能多样、易于使用的创作平台，简化了3D模型的制作以及修改过程。
它使专业用户和业余爱好者能够快速地对3D模型进行操作，甚至制作动画。我们的系统进行了系统评估，结果混元3D 2.0在几何细节、条件匹配纹理、质量等方面均低于以往最先进的开源以及闭源模型。

Hunyuan3D-2mini：https://huggingface.co/tencent/Hunyuan3D-2mini

Hunyuan3D-2mv：https://huggingface.co/tencent/Hunyuan3D-2mv
在这里插入图片描述