啊?不会这就是草莓吧?OpenAI发布最新模型——OpenAI o1-preview

解决难题的全新系列推理模型。9.12 开始提供

在这里插入图片描述

我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比,它们可以推理复杂的任务,解决更难的问题。

今天,我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版,我们期待定期更新和改进。在发布此版本的同时,我们还将对目前正在开发中的下一次更新进行评估。

工作原理

我们训练这些模型花更多时间思考问题,然后再做出反应,就像人一样。通过培训,它们学会了完善自己的思考过程、尝试不同的策略并认识到自己的错误。

在我们的测试中,下一次更新的模型在物理、化学和生物领域具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确解决了 13% 的问题,而推理模型的正确率则高达 83%。他们的编码能力在竞赛中得到了评估,在 Codeforces 竞赛中达到了第 89 百分位。您可以在我们的技术研究文章中了解更多相关信息。

作为一个早期模型,它还不具备使 ChatGPT 变得有用的许多功能,如浏览网络信息、上传文件和图片等。对于许多常见情况,GPT-4o 在短期内会有更强的功能。

但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为 1,并将此系列命名为 OpenAI o1。

安全

作为开发这些新模型的一部分,我们提出了一种新的安全培训方法,利用它们的推理能力,使它们遵守安全和对齐准则。通过在上下文中对我们的安全规则进行推理,可以更有效地应用这些规则。

我们衡量安全性的方法之一,就是测试当用户试图绕过安全规则时,我们的模型能在多大程度上继续遵守安全规则(即 “越狱”)。在我们最难的一次越狱测试中,GPT-4o 得分为 22 分(0-100 分),而我们的 o1-preview 模型得分为 84 分。您可以在系统卡和我们的研究文章中了解更多相关信息。

为了与这些模型的新功能相匹配,我们加强了安全工作、内部管理和联邦政府合作。这包括使用我们的 “准备框架”(在新窗口中打开)进行的严格测试和评估、同类最佳的红色团队以及董事会级别的审查流程,包括由我们的安全与安保委员会进行的审查。

为了推进我们对人工智能安全的承诺,我们最近与美国和英国的人工智能安全研究所正式签订了协议。我们已经开始将这些协议付诸实施,包括允许这两家机构提前使用该模型的研究版本。这是我们合作关系中重要的第一步,有助于在未来模型公开发布之前和之后建立一个研究、评估和测试流程。

OpenAI o1-mini

o1 系列在准确生成和调试复杂代码方面表现出色。为了向开发人员提供更高效的解决方案,我们还发布了 OpenAI o1-mini,这是一款速度更快、成本更低的推理模型,在编码方面尤为有效。作为一个较小的模型,o1-mini 比 o1-preview 便宜 80%,对于需要推理但不需要广泛世界知识的应用程序来说,它是一个功能强大、经济高效的模型。

如何使用 OpenAI o1

从今天开始,ChatGPT Plus 和 Team 用户将能在 ChatGPT 中访问 o1 模型。o1-preview 和 o1-mini 都可以在模型选择器中手动选择,推出时,o1-preview 的每周费率限制为 30 条消息,o1-mini 为 50 条消息。我们正在努力提高这些费率,并使 ChatGPT 能够根据给定的提示自动选择合适的模式。

在这里插入图片描述
从下周开始,ChatGPT 企业版和教育版用户将可以使用这两种模式。

符合 API 使用级别 5(在新窗口中打开)的开发人员今天就可以开始在 API 中使用这两种模型进行原型开发,速率限制为 20 RPM。我们将在进一步测试后提高这些限制。这些模型的 API 目前不包括函数调用、流媒体、系统消息支持和其他功能。要开始使用,请查看 API 文档(在新窗口中打开)。

我们还计划为所有 ChatGPT 免费用户提供 o1-mini 访问权限。

Azure AI Studio & OpenAI

现在可以在 Azure AI Studio 和 GitHub Models 中访问 o1-preview 和 o1-mini 模型,供 Azure 的部分客户共同探索和识别每个模型的独特优势。o1 系列高级推理模型擅长解决类似的复杂而细微的问题:

  • 复杂代码生成:能够生成算法和执行高级编码任务,为开发人员提供帮助。
  • 高级问题解决:是综合头脑风暴会议和解决多方面问题的完美选择。
  • 复杂文档对比:是分析合同、案卷或法律文件以辨别细微差别的理想工具。
  • 指令跟踪和工作流程管理:特别擅长处理需要较短上下文的工作流程。

在这里插入图片描述

在这里插入图片描述

Benchmark

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
论文: https://cdn.openai.com/o1-system-card.pdf

鉴于让 ChatGPT 输出更高质量的回复(尤其是需要高级推理的提示)的常用方法是要求它重读提示,因此结果是有意义的。在重新处理原始请求时,它通常会发现错误并输出正确的回复。

由于 o1 是一个早期模型,它缺乏 ChatGPT 的关键功能,如互联网浏览和接受媒体上传。因此,在短期内,GPT-4o 可能是处理普通情况的最佳模型,而 o1 则是解决复杂的科学、编码和数学问题的更好选择。

OpenAI 还推出了 o1-mini,它比 o1-preview 便宜 80%。这使它成为开发人员更经济、更快捷的选择。OpenAI 在博文中表示,o1-mini 在编码方面特别有效。

ChatGPT Plus 和 Team 用户可以通过 ChatGPT 页面左侧的模式选择器切换器访问 o1-preview 和 o1-mini 模式,o1-preview 和 o1-mini 的每周费率限制分别为 30 条和 50 条。

符合 API 使用级别 5 的开发人员也可以使用这些模型,限制为 20 RPM。ChatGPT Enterprise 和 Edu 用户将在下周初获得访问权限。OpenAI 计划将 o1-mini 也提供给所有 ChatGPT 免费用户,但没有明确说明何时会发生这种变化。

OpenAI 还在努力扩大目前的限制,使 ChatGPT 能够根据用户提示自动选择最佳模型。

早在 2023 年 11 月,就有关于 OpenAI 模型具有高级推理能力的传言。从那时起,该项目就被称为 “草莓项目”(Project Strawberry),整个夏天,Atlman 都在关注并发布预告。

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

猜你喜欢

转载自blog.csdn.net/weixin_41446370/article/details/142194569