新王Claude3.5评测 - 代码天地

新鲜出炉的Claude 3.5 Sonnet，更快、更便宜，还是全球最强。

在多个关键指标中，GPT-4o几乎被吊打！

目前最受认可的大模型竞技场评分还来不及出，但所有能即时出结果的评测上它都牢牢占据榜一。

针对中文场景评测

我们主要还是设立了几个针对中文场景的测试题。

第一题：一道此前只有GPT4最新模型能完成的题丢给他，

写一个长度为10行的故事，把每一行编号；同时满足每行以“苹果”这个词结尾。

很好，这次Claude 3.5 Sonnet完美地完成了任务。

第二题：最近热度很高的阿里巴巴数学竞赛初赛，一道选择题不给选项，居然也能答对。

小明玩战机游戏。初始积分为2。在游戏进行中，积分会随着时间线性地连续减少 (速率为每单位时间段扣除1)。游戏开始后，每隔一个随机时间段(时长为互相独立的参数为1的指数分布)，就会有一架敌机出现在屏幕上。当敌机出现时，小明立即进行操作，可以瞬间击落对方，或者瞬间被对方击落。如被敌机击落，则游戏结束。如小明击落敌机，则会获得1.5个积分，并且可以选择在击落该次敌机后立即退出游戏，或者继续游戏。如选择继续游戏，则须等待到下一架敌机出现，中途不能主动退出。游戏的难度不断递增:出现的第n架敌机，小明击落对方的概率为(0.85)^n，被击落的概率为1-(0.85)^n，且与之前的事件独立。在任何时刻，如果积分降到0，则游戏自动结束。(此题共有2小问) 小问1(5分)如果游戏中，小明被击落后，其之前的积分保持。那么为了游戏结束时的累积积分的数学期望最大化，小明应该在其击落第几架敌机后主动结束游戏?