新王Claude3.5评测

新鲜出炉的Claude 3.5 Sonnet,更快、更便宜,还是全球最强。

在多个关键指标中,GPT-4o几乎被吊打!

目前最受认可的大模型竞技场评分还来不及出,但所有能即时出结果的评测上它都牢牢占据榜一。

针对中文场景评测

我们主要还是设立了几个针对中文场景的测试题。

第一题:一道此前只有GPT4最新模型能完成的题丢给他,

写一个长度为10行的故事,把每一行编号;同时满足每行以“苹果”这个词结尾。

很好,这次Claude 3.5 Sonnet完美地完成了任务。

第二题:最近热度很高的阿里巴巴数学竞赛初赛,一道选择题不给选项,居然也能答对。

小明玩战机游戏。初始积分为2。在游戏进行中,积分会随着时间线性地连续减少 (速率为每单位时间段扣除1)。游戏开始后,每隔一个随机时间段(时长为互相独立的参数为1的指数分布),就会有一架敌机出现在屏幕上。 当敌机出现时,小明立即进行操作,可以瞬间击落对方,或者瞬间被对方击落。如被敌机击落,则游戏结束。如小明击落敌机,则会获得1.5个积分,并且可以选择在击落该次敌机后立即退出游戏,或者继续游戏。如选择继续游戏,则须等待到下一架敌机出现,中途不能主动退出。游戏的难度不断递增:出现的第n架敌机,小明击落对方的概率为(0.85)^n,被击落的概率为1-(0.85)^n,且与之前的事件独立。在任何时刻,如果积分降到0,则游戏自动结束。(此题共有2小问) 小问1(5分)如果游戏中,小明被击落后,其之前的积分保持。那么为了游戏结束时的累积积分的数学期望最大化,小明应该在其击落第几架敌机后主动结束游戏?

第三题:经典题,三人三天三桶水,九人九天几桶水,这道题之前也是只有GPT4模型可以答对,国产模型全部歇菜。

另一Anthropic员工更是直言:

我一半的工作现在可以通过3.5 Sonnet完成。

当然,忽略员工自身所带的捧场属性,Claude 3.5 Sonnet还有其他亮眼表现。

有网友用它发现了一种新的 O(n) 排序算法。

现在,Claude 3.5系列第一款模型没有预兆地出场,又大张旗鼓地拿下了全球第一。

有网友满是星星眼地表达:

Claude 3.5 Sonnet让“3.5系列”再次伟大!

而且,如果延续Claude 3系列的惯例,Claude 3.5 Sonnet应该只是该系列的大杯而已。

理论上还有个超大杯Opus被Anthropic宝贝着没放出来呢。

看看它和GPT-5哪个会先闪耀大模型排行榜吧!

如果想对比GPT4o和Claude3.5模型,可以使用aibox365.com,一站式模型服务,可以使用最新的Claude3.5-sonnet模型。

猜你喜欢

转载自blog.csdn.net/AIBox365/article/details/140632353
3.5