快速更迭的开源大模型领域,又出现了新王:Reflection 70B。
横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。
这个新模型 Reflection 70B,来自 AI 写作初创公司 HyperWrite。
HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。
Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。
Reflection 70B 已在多个基准测试中经过严格测试,包括 MMLU 和 HumanEval。测试结果表明, Reflection 的表现始终优于 Meta 的 Llama 系列,并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。