啊？不会这就是草莓吧？OpenAI发布最新模型——OpenAI o1-preview

解决难题的全新系列推理模型。9.12 开始提供

在这里插入图片描述

我们开发了一系列新的人工智能模型，旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比，它们可以推理复杂的任务，解决更难的问题。

今天，我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版，我们期待定期更新和改进。在发布此版本的同时，我们还将对目前正在开发中的下一次更新进行评估。

工作原理

我们训练这些模型花更多时间思考问题，然后再做出反应，就像人一样。通过培训，它们学会了完善自己的思考过程、尝试不同的策略并认识到自己的错误。

在我们的测试中，下一次更新的模型在物理、化学和生物领域具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克（IMO）的资格考试中，GPT-4o 只正确解决了 13% 的问题，而推理模型的正确率则高达 83%。他们的编码能力在竞赛中得到了评估，在 Codeforces 竞赛中达到了第 89 百分位。您可以在我们的技术研究文章中了解更多相关信息。

作为一个早期模型，它还不具备使 ChatGPT 变得有用的许多功能，如浏览网络信息、上传文件和图片等。对于许多常见情况，GPT-4o 在短期内会有更强的功能。

但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。有鉴于此，我们将计数器重置为 1，并将此系列命名为 OpenAI o1。

安全

作为开发这些新模型的一部分，我们提出了一种新的安全培训方法，利用它们的推理能力，使它们遵守安全和对齐准则。通过在上下文中对我们的安全规则进行推理，可以更有效地应用这些规则。

我们衡量安全性的方法之一，就是测试当用户试图绕过安全规则时，我们的模型能在多大程度上继续遵守安全规则（即 “越狱”）。在我们最难的一次越狱测试中，GPT-4o 得分为 22 分（0-100 分），而我们的 o1-preview 模型得分为 84 分。您可以在系统卡和我们的研究文章中了解更多相关信息。

为了与这些模型的新功能相匹配，我们加强了安全工作、内部管理和联邦政府合作。这包括使用我们的 “准备框架”（在新窗口中打开）进行的严格测试和评估、同类最佳的红色团队以及董事会级别的审查流程，包括由我们的安全与安保委员会进行的审查。

为了推进我们对人工智能安全的承诺，我们最近与美国和英国的人工智能安全研究所正式签订了协议。我们已经开始将这些协议付诸实施，包括允许这两家机构提前使用该模型的研究版本。这是我们合作关系中重要的第一步，有助于在未来模型公开发布之前和之后建立一个研究、评估和测试流程。

OpenAI o1-mini

o1 系列在准确生成和调试复杂代码方面表现出色。为了向开发人员提供更高效的解决方案，我们还发布了 OpenAI o1-mini，这是一款速度更快、成本更低的推理模型，在编码方面尤为有效。作为一个较小的模型，o1-mini 比 o1-preview 便宜 80%，对于需要推理但不需要广泛世界知识的应用程序来说，它是一个功能强大、经济高效的模型。

如何使用 OpenAI o1

从今天开始，ChatGPT Plus 和 Team 用户将能在 ChatGPT 中访问 o1 模型。o1-preview 和 o1-mini 都可以在模型选择器中手动选择，推出时，o1-preview 的每周费率限制为 30 条消息，o1-mini 为 50 条消息。我们正在努力提高这些费率，并使 ChatGPT 能够根据给定的提示自动选择合适的模式。

在这里插入图片描述
从下周开始，ChatGPT 企业版和教育版用户将可以使用这两种模式。

符合 API 使用级别 5（在新窗口中打开）的开发人员今天就可以开始在 API 中使用这两种模型进行原型开发，速率限制为 20 RPM。我们将在进一步测试后提高这些限制。这些模型的 API 目前不包括函数调用、流媒体、系统消息支持和其他功能。要开始使用，请查看 API 文档（在新窗口中打开）。

我们还计划为所有 ChatGPT 免费用户提供 o1-mini 访问权限。

Azure AI Studio & OpenAI

现在可以在 Azure AI Studio 和 GitHub Models 中访问 o1-preview 和 o1-mini 模型，供 Azure 的部分客户共同探索和识别每个模型的独特优势。o1 系列高级推理模型擅长解决类似的复杂而细微的问题：

复杂代码生成：能够生成算法和执行高级编码任务，为开发人员提供帮助。
高级问题解决：是综合头脑风暴会议和解决多方面问题的完美选择。
复杂文档对比：是分析合同、案卷或法律文件以辨别细微差别的理想工具。
指令跟踪和工作流程管理：特别擅长处理需要较短上下文的工作流程。

在这里插入图片描述

Benchmark

在这里插入图片描述

论文： https://cdn.openai.com/o1-system-card.pdf

鉴于让 ChatGPT 输出更高质量的回复（尤其是需要高级推理的提示）的常用方法是要求它重读提示，因此结果是有意义的。在重新处理原始请求时，它通常会发现错误并输出正确的回复。

由于 o1 是一个早期模型，它缺乏 ChatGPT 的关键功能，如互联网浏览和接受媒体上传。因此，在短期内，GPT-4o 可能是处理普通情况的最佳模型，而 o1 则是解决复杂的科学、编码和数学问题的更好选择。

OpenAI 还推出了 o1-mini，它比 o1-preview 便宜 80%。这使它成为开发人员更经济、更快捷的选择。OpenAI 在博文中表示，o1-mini 在编码方面特别有效。

ChatGPT Plus 和 Team 用户可以通过 ChatGPT 页面左侧的模式选择器切换器访问 o1-preview 和 o1-mini 模式，o1-preview 和 o1-mini 的每周费率限制分别为 30 条和 50 条。

符合 API 使用级别 5 的开发人员也可以使用这些模型，限制为 20 RPM。ChatGPT Enterprise 和 Edu 用户将在下周初获得访问权限。OpenAI 计划将 o1-mini 也提供给所有 ChatGPT 免费用户，但没有明确说明何时会发生这种变化。

OpenAI 还在努力扩大目前的限制，使 ChatGPT 能够根据用户提示自动选择最佳模型。

早在 2023 年 11 月，就有关于 OpenAI 模型具有高级推理能力的传言。从那时起，该项目就被称为 “草莓项目”（Project Strawberry），整个夏天，Atlman 都在关注并发布预告。

感谢大家花时间阅读我的文章，你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容，请多多关注我的动态！

工作原理

安全

OpenAI o1-mini

如何使用 OpenAI o1

Azure AI Studio & OpenAI

Benchmark

猜你喜欢

目录

热门文章