埃隆.马斯克20万块GPU训练Grok-3，狂战DeepSeek R1屠榜！复仇OpenAI

马斯克做到了！人类史上首个在20万块GPU上训出的模型终于问世！大拿不愧为大拿，我认为移民火星快了！

北京时间 2 月 18 日中午，埃隆·马斯克旗下的人工智能公司 xAI 重磅发布了 Grok 3 系列模型，宣称其在数学、科学和编码基准测试中，击败了 Google Gemini、DeepSeek V3、Claude 以及 OpenAI 的 GPT-4o ,首个AI智能体「DeepSearch」：联网深入搜索

20万张GPU！号称“地球上最聪明的AI”Grok-3来了，斩获多个Top1，网友：算力消耗是DeepSeek V3的260倍+

在这里插入图片描述

据介绍，三代Grok的训练计算量竟是Grok-2的10倍，那么实际表现又如何？

Grok-2 vs Grok-3

在这里插入图片描述

媒体多次报道 xAI 使用了 10 万个 GPU 构建了超级计算机 Colossus，但那只是初步阶段。后来，xAI 构建了一个包含约 20 万个 GPU 的数据中心，而 Grok 3 的训练正是在此基础设施上进行的

20 万张 GPU 训练出来的 Grok 3

我们回顾下过往，2023 年 7 月，马斯克集结 Deepmind、微软、特斯拉以及学术界的多位大佬成立了人工智能初创公司 xAI。仅仅半年之后，xAI 就带来其研发成果——Grok-1 大模型，还采用了开源策略，迅速吸引了大量关注。截至目前，Grok-1 在 GitHub 上已经获得了近 50k 个 Star，Fork 数达到 8.3k，成功迎接了当时 OpenAI 和 Google 等闭源大模型带来的竞争压力。

然而，在百模大战中，走别人走过的路、打造千篇一律的模型显然无法脱颖而出。在此次 Grok 3 发布会上，马斯克再次重申了自己对大模型的构想，并解释了为何将其命名为“Grok”。

“实际上，我们应该解释一下为什么我们叫它 ‘Grok’。这个词来自罗伯特·海因莱因的小说《异乡异客》。它由一个在火星长大的角色使用，意思是完全并深刻地理解某件事。‘Grok’ 传达的是深刻的理解，而同理心是其中一个重要部分。”不得不说大佬在产品命名也别有一翻用心。

总的来说，马斯克希望 Grok 模型愿意回答其他 AI 系统不敢回答的争议性问题（大佬的想法真是6的）。正因此，马斯克此次也表示，“Grok 3 是一种最大程度地寻求真相的人工智能，即使这种真相有时与政治正确相悖。”

Grok 3 基准测试曝光输出

在多项基准测试中，Grok-3在数学（AIME 2024）、科学问答（GPQA）、编码（LCB）上刷新SOTA，大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的性能基本上领先或媲美其他闭源/开源模型。

在著名大模型LMSYS Arena排行榜中，Grok-3（chocolate终于揭秘）刷榜，Elo评分超1400位列最高，没有任何一个模型能与之相比

Grok-3的数学能力十分惊人，几乎能完成大部分美国数学专业能力测试的题目。
在这里插入图片描述

在最新的数学基准AIME 2025上，Grok-3两款新模型性能同样刷新SOTA，分别拿下了93和90分。

根据 xAI 工程师的介绍，Grok 3 其实是一个模型家族——而不仅仅是一个模型。Grok 3 的轻量级版本——Grok 3 mini——在牺牲一定准确度的情况下，能够更快地响应问题。

目前，并不是所有模型都已经上线（其中一些仍处于测试阶段），但会从今天开始陆续推出。此外，原定今天要发布的语音模式并未出现，马斯克随后也在 X 上解释称，“语言模式仍然有点不完善，所以大概会在一周左右推出，但它很棒。”

根据官方公开的测试结果，Grok 3 在包括 AIME（评估模型在一系列数学问题上的表现）和 GPQA（评估模型在博士级别的物理学、生物学和化学问题上的表现）等基准测试中，远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。

更令人惊喜的是，Grok-3此次还带来了推理模型——Grok-3 Reasoning，在回答问题时会展示出思维过程。

进入聊天入口，直接选择「Think」模式，即可开启魔法。

此外，还有「Big Brain」模式、智能体「深度搜索」（Deep Search）模式同步上线。

暴击o3-mini、DeepSeek-R1，解锁测试时计算

有人说，Grok-3是终极的Scaling Law测试，如今看来，事实如此。从2023年Grok-1首次面世，到Grok-1.5，再到Grok-2逐步迭代，模型推理性能飞速飙升的同时，还吞噬了大量的算力
在这里插入图片描述

在这里插入图片描述

Grok-3家族，更是将「测试时计算」发挥到了极致。10万块H100超算，训出的野兽几乎无「模」能敌。

在 Chatbot Arena 中，用户或评审可以通过对比不同的模型响应，并进行投票，以评定哪个模型提供了最佳的答案。平台通过这种“人类评分”的方式帮助研究人员和开发者了解各大聊天机器人模型的优劣，推动模型的持续改进。时下 Grok 3 是在过往业界已发布的大模型中首个突破 1400 分、获得多个第一的大模型。

在这里插入图片描述

在多项基准测试中，推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上，性能均大幅超越o3-mini（high）、o1、DeepSeek-R1，还有Gemi-2 Flash Thinking。

可以说，迄今为止最强「推理模型」，全部败给了Grok-3 Reasoning，可以说，它是名副其实的「世界上最聪明的模型」。

Grok-3强大的推理能力

首先是一个太空飞船任务，生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码。

注意，这个问题的难点在于，过程中涉及到了大量数学和物理模型的计算。在此之前，团队从未试过让大模型去计算航天的发射窗口。

在「Think」模式下，可以看到Grok的思维痕迹，甚至可以进去看看Grok在解决问题时到底在想什么。

xAI 工程师介绍道，“大约一个月前，Grok 3 的预训练完成，从那时起，我们一直在努力将推理能力整合到当前的 Grok 3 模型中。不过，这仍处于早期阶段，模型仍在继续训练。今天展示的只是 Grok 3 推理模型的一部分。同时，我们还在训练一个 mini 版本的推理模型。”

在这里插入图片描述

图：使用 pygame，制作一个结合了俄罗斯方块和宝石方块的游戏。代码可以很长。
将其输出为一个文件。让它变得非常棒

在这里插入图片描述

图: 生成从地球发射、着陆火星然后在下一个发射窗口返回地球的 3D 动图的代码。

直观展示了任务过程中，太阳、地球、火星和飞船之间的位置关系。

甚至，宇航员可以据此直接算出出舱时间和距离。这上面有地球-火星往返的转移路径，这种穿越每26个月发生一次。接下来，我们现在正处于一个过渡窗口期。

研究者经过检查后激动表示：Grok-3给的答案完全正确！

最后马斯克揭开谜底：其实，这就是SpaceX真正的探索轨道。他充满信心地表示，两年内，地球和火星就会被连接在一起,可以看出，Grok 3 的表现确实不错

Grok-2 会将在不久后开源

当前，X 的 Premium+ 订阅用户将率先体验 Grok 3，其他功能则通过 xAI 推出的新计划 SuperGrok 提供。SuperGrok 定价为每月 30 美元或每年 300 美元，付费后可以解锁更多的推理和 DeepSearch 查询，并提供无限制的图像生成功能。

最后，在与网友的 QA 环节，马斯克表示，未来——大约一周后——Grok 将推出“语音模式”，为 Grok 提供合成语音。几周后，Grok 3 模型将与 DeepSearch 功能一起进入 xAI 的企业 API。

再几个月后，xAI 将开源 Grok 2。“我们的总体方针是，当下一个版本完全发布时，我们将开源最后一个版本 [的 Grok]，”马斯克说。“当 Grok 3 成熟并稳定下来，这可能会在几个月内实现，然后我们将开源 Grok 2。”

Grok-3什么时候上线呢？

我们拭目以待吧

马斯克表示，几个月之后会对Grok-3进行全面的开源。

Grok-3最令人兴奋的部分是什么？训练模型，以及百分百的逻辑推理，都是最难的部分，就像你需要随时随地设计宇宙的最新进展。

在这里插入图片描述

图：埃隆 xAI团队

猜你喜欢

目录

热门文章