刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。

横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。

这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。

HyperWrite 公司的 CEO Matt Shumer 表示，Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。

Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。

Reflection 70B 已在多个基准测试中经过严格测试，包括 MMLU 和 HumanEval。测试结果表明， Reflection 的表现始终优于 Meta 的 Llama 系列，并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。