Meta 推出全球最强开源大模型 Llama 3.1赶超 GPT-4o

Meta 于今日发布了全新升级的 Llama 3.1 模型系列,其中最大版本 Llama 3.1 405B 成为迄今为止最强大的开源模型,并宣称其综合性能超越所有其他开源和闭源大模型。此举标志着开源模型在技术实力上达到了一个新的高峰。

Llama 3.1 模型特点概述

  • 尺寸选择:提供 8B、70B 和 405B 三个版本。
  • 上下文窗口:最大提升至 128K。
  • 多语言支持:具有卓越的多语言处理能力。
  • 代码生成:代码生成性能优异。
  • 推理能力:具备复杂推理和工具使用技巧。

性能对比

根据基准测试结果,Llama 3.1 405B 在多个测试中超越了 GPT-4 0125,并与 GPT-4o 和 Claude 3.5 互有胜负。在 NIH/Multi-needle 基准测试中取得 98.1 分,在 ZeroSCROLLS/QUALITY 基准测试中得分为 95.2,展现了其在处理长文本和复杂信息方面的卓越能力。

训练与优化

Llama 3.1 405B 使用了超过 15 万亿个 token 进行训练,采用标准解码器 Transformer 架构,并在超过 16000 个 H100 GPU 上进行训练。团队通过监督微调和直接偏好优化,结合合成数据生成技术,提升了模型的训练质量和性能。此外,模型的精度量化从 16 位(BF16)降至 8 位(FP8),减少了计算资源需求。

开源策略与工具支持

Meta 继续秉持开源路线,提供了模型权重和代码,允许用户进行微调和部署。通过 Llama Stack API,开发者可以方便地集成和调用外部工具。同时,Meta 还发布了参考系统和示例应用程序,鼓励社区参与和合作。

Meta 的开源愿景

Meta 的 CEO 扎克伯格在《Open Source AI Is the Path Forward》中表示:“未来的 Llama 将成为业内最先进的模型。开源 AI 模型的目标不仅仅是超越闭源模型,更是为了推动技术平权和 AI 生态的繁荣发展。”

展望未来

Meta Llama 3.1 405B 的发布,不仅展现了开源大模型的强大实力,也为未来的 AI 技术发展树立了新标杆。Meta 希望通过开源,汇聚全球开发者的智慧,共同推进 AI 技术的普及和进步,造福全人类。

附上模型和论文的下载链接:

猜你喜欢

转载自blog.csdn.net/iduiui997/article/details/140660029