新鲜出炉的Claude 3.5 Sonnet,更快、更便宜,还是全球最强。
在多个关键指标中,GPT-4o几乎被吊打!
目前最受认可的大模型竞技场评分还来不及出,但所有能即时出结果的评测上它都牢牢占据榜一。
针对中文场景评测
我们主要还是设立了几个针对中文场景的测试题。
第一题:一道此前只有GPT4最新模型能完成的题丢给他,
写一个长度为10行的故事,把每一行编号;同时满足每行以“苹果”这个词结尾。
很好,这次Claude 3.5 Sonnet完美地完成了任务。
第二题:最近热度很高的阿里巴巴数学竞赛初赛,一道选择题不给选项,居然也能答对。
小明玩战机游戏。初始积分为2。在游戏进行中,积分会随着时间线性地连续减少 (速率为每单位时间段扣除1)。游戏开始后,每隔一个随机时间段(时长为互相独立的参数为1的指数分布),就会有一架敌机出现在屏幕上。 当敌机出现时,小明立即进行操作,可以瞬间击落对方,或者瞬间被对方击落。如被敌机击落,则游戏结束。如小明击落敌机,则会获得1.5个积分,并且可以选择在击落该次敌机后立即退出游戏,或者继续游戏。如选择继续游戏,则须等待到下一架敌机出现,中途不能主动退出。游戏的难度不断递增:出现的第n架敌机,小明击落对方的概率为(0.85)^n,被击落的概率为1-(0.85)^n,且与之前的事件独立。在任何时刻,如果积分降到0,则游戏自动结束。(此题共有2小问) 小问1(5分)如果游戏中,小明被击落后,其之前的积分保持。那么为了游戏结束时的累积积分的数学期望最大化,小明应该在其击落第几架敌机后主动结束游戏?
第三题:经典题,三人三天三桶水,九人九天几桶水,这道题之前也是只有GPT4模型可以答对,国产模型全部歇菜。
另一Anthropic员工更是直言:
我一半的工作现在可以通过3.5 Sonnet完成。
当然,忽略员工自身所带的捧场属性,Claude 3.5 Sonnet还有其他亮眼表现。
有网友用它发现了一种新的 O(n) 排序算法。
现在,Claude 3.5系列第一款模型没有预兆地出场,又大张旗鼓地拿下了全球第一。
有网友满是星星眼地表达:
Claude 3.5 Sonnet让“3.5系列”再次伟大!
而且,如果延续Claude 3系列的惯例,Claude 3.5 Sonnet应该只是该系列的大杯而已。
理论上还有个超大杯Opus被Anthropic宝贝着没放出来呢。
看看它和GPT-5哪个会先闪耀大模型排行榜吧!
如果想对比GPT4o和Claude3.5模型,可以使用aibox365.com,一站式模型服务,可以使用最新的Claude3.5-sonnet模型。