马斯克做到了!人类史上首个在20万块GPU上训出的模型终于问世!大拿不愧为大拿,我认为移民火星快了!
北京时间 2 月 18 日中午,埃隆·马斯克旗下的人工智能公司 xAI 重磅发布了 Grok 3 系列模型,宣称其在数学、科学和编码基准测试中,击败了 Google Gemini、DeepSeek V3、Claude 以及 OpenAI 的 GPT-4o ,首个AI智能体「DeepSearch」:联网深入搜索
20万张GPU!号称“地球上最聪明的AI”Grok-3来了,斩获多个Top1,网友:算力消耗是DeepSeek V3的260倍+
据介绍,三代Grok的训练计算量竟是Grok-2的10倍,那么实际表现又如何?
Grok-2 vs Grok-3
媒体多次报道 xAI 使用了 10 万个 GPU 构建了超级计算机 Colossus,但那只是初步阶段。后来,xAI 构建了一个包含约 20 万个 GPU 的数据中心,而 Grok 3 的训练正是在此基础设施上进行的
20 万张 GPU 训练出来的 Grok 3
我们回顾下过往,2023 年 7 月,马斯克集结 Deepmind、微软、特斯拉以及学术界的多位大佬成立了人工智能初创公司 xAI。仅仅半年之后,xAI 就带来其研发成果——Grok-1 大模型,还采用了开源策略,迅速吸引了大量关注。截至目前,Grok-1 在 GitHub 上已经获得了近 50k 个 Star,Fork 数达到 8.3k,成功迎接了当时 OpenAI 和 Google 等闭源大模型带来的竞争压力。
然而,在百模大战中,走别人走过的路、打造千篇一律的模型显然无法脱颖而出。在此次 Grok 3 发布会上,马斯克再次重申了自己对大模型的构想,并解释了为何将其命名为“Grok”。
“实际上,我们应该解释一下为什么我们叫它 ‘Grok’。这个词来自罗伯特·海因莱因的小说《异乡异客》。它由一个在火星长大的角色使用,意思是完全并深刻地理解某件事。‘Grok’ 传达的是深刻的理解,而同理心是其中一个重要部分。”不得不说大佬在产品命名也别有一翻用心。
总的来说,马斯克希望 Grok 模型愿意回答其他 AI 系统不敢回答的争议性问题(大佬的想法真是6的)。正因此,马斯克此次也表示,“Grok 3 是一种最大程度地寻求真相的人工智能,即使这种真相有时与政治正确相悖。”
Grok 3 基准测试曝光输出
在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。
Grok-3 mini的性能基本上领先或媲美其他闭源/开源模型。
在著名大模型LMSYS Arena排行榜中,Grok-3(chocolate终于揭秘)刷榜,Elo评分超1400位列最高,没有任何一个模型能与之相比
Grok-3的数学能力十分惊人,几乎能完成大部分美国数学专业能力测试的题目。
在最新的数学基准AIME 2025上,Grok-3两款新模型性能同样刷新SOTA,分别拿下了93和90分。
根据 xAI 工程师的介绍,Grok 3 其实是一个模型家族——而不仅仅是一个模型。Grok 3 的轻量级版本——Grok 3 mini——在牺牲一定准确度的情况下,能够更快地响应问题。
目前,并不是所有模型都已经上线(其中一些仍处于测试阶段),但会从今天开始陆续推出。此外,原定今天要发布的语音模式并未出现,马斯克随后也在 X 上解释称,“语言模式仍然有点不完善,所以大概会在一周左右推出,但它很棒。”
根据官方公开的测试结果,Grok 3 在包括 AIME(评估模型在一系列数学问题上的表现)和 GPQA(评估模型在博士级别的物理学、生物学和化学问题上的表现)等基准测试中,远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。
更令人惊喜的是,Grok-3此次还带来了推理模型——Grok-3 Reasoning,在回答问题时会展示出思维过程。
进入聊天入口,直接选择「Think」模式,即可开启魔法。
此外,还有「Big Brain」模式、智能体「深度搜索」(Deep Search)模式同步上线。
暴击o3-mini、DeepSeek-R1,解锁测试时计算
有人说,Grok-3是终极的Scaling Law测试,如今看来,事实如此。从2023年Grok-1首次面世,到Grok-1.5,再到Grok-2逐步迭代,模型推理性能飞速飙升的同时,还吞噬了大量的算力
Grok-3家族,更是将「测试时计算」发挥到了极致。10万块H100超算,训出的野兽几乎无「模」能敌。
在 Chatbot Arena 中,用户或评审可以通过对比不同的模型响应,并进行投票,以评定哪个模型提供了最佳的答案。平台通过这种“人类评分”的方式帮助研究人员和开发者了解各大聊天机器人模型的优劣,推动模型的持续改进。时下 Grok 3 是在过往业界已发布的大模型中首个突破 1400 分、获得多个第一的大模型。
在多项基准测试中,推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在数学、科学、编码上,性能均大幅超越o3-mini(high)、o1、DeepSeek-R1,还有Gemi-2 Flash Thinking。
可以说,迄今为止最强「推理模型」,全部败给了Grok-3 Reasoning,可以说,它是名副其实的「世界上最聪明的模型」。
Grok-3强大的推理能力
首先是一个太空飞船任务,生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码。
注意,这个问题的难点在于,过程中涉及到了大量数学和物理模型的计算。在此之前,团队从未试过让大模型去计算航天的发射窗口。
在「Think」模式下,可以看到Grok的思维痕迹,甚至可以进去看看Grok在解决问题时到底在想什么。
xAI 工程师介绍道,“大约一个月前,Grok 3 的预训练完成,从那时起,我们一直在努力将推理能力整合到当前的 Grok 3 模型中。不过,这仍处于早期阶段,模型仍在继续训练。今天展示的只是 Grok 3 推理模型的一部分。同时,我们还在训练一个 mini 版本的推理模型。”
图:使用 pygame,制作一个结合了俄罗斯方块和宝石方块的游戏。代码可以很长。
将其输出为一个文件。让它变得非常棒
图: 生成从地球发射、着陆火星然后在下一个发射窗口返回地球的 3D 动图的代码。
直观展示了任务过程中,太阳、地球、火星和飞船之间的位置关系。
甚至,宇航员可以据此直接算出出舱时间和距离。这上面有地球-火星往返的转移路径,这种穿越每26个月发生一次。接下来,我们现在正处于一个过渡窗口期。
研究者经过检查后激动表示:Grok-3给的答案完全正确!
最后马斯克揭开谜底:其实,这就是SpaceX真正的探索轨道。他充满信心地表示,两年内,地球和火星就会被连接在一起,可以看出,Grok 3 的表现确实不错
Grok-2 会将在不久后开源
当前,X 的 Premium+ 订阅用户将率先体验 Grok 3,其他功能则通过 xAI 推出的新计划 SuperGrok 提供。SuperGrok 定价为每月 30 美元或每年 300 美元,付费后可以解锁更多的推理和 DeepSearch 查询,并提供无限制的图像生成功能。
最后,在与网友的 QA 环节,马斯克表示,未来——大约一周后——Grok 将推出“语音模式”,为 Grok 提供合成语音。几周后,Grok 3 模型将与 DeepSearch 功能一起进入 xAI 的企业 API。
再几个月后,xAI 将开源 Grok 2。“我们的总体方针是,当下一个版本完全发布时,我们将开源最后一个版本 [的 Grok],”马斯克说。“当 Grok 3 成熟并稳定下来,这可能会在几个月内实现,然后我们将开源 Grok 2。”
Grok-3什么时候上线呢?
我们拭目以待吧
马斯克表示,几个月之后会对Grok-3进行全面的开源。
Grok-3最令人兴奋的部分是什么?训练模型,以及百分百的逻辑推理,都是最难的部分,就像你需要随时随地设计宇宙的最新进展。
图:埃隆 xAI团队