OpenAI的规模化经济效益与第二护城河

尽管业内相继开源了不少表现出色的语言大模型，但相对OpenAI的闭源模型的高昂部署成本，让大多数想使用开源LLM模型的组织往往望而却步。

OpenAI在成本方面的优势，一方面来自规模效应，另一方面来自其基础设施方面的深厚积累。开源LLM提供商要取得成功，必须在这两方面追上甚至超越OpenAI。

此外，作者认为，开源LLM还需要不断改进，降低应用复杂性，并发挥在定制需求方面的优势。

本文作者Vikram Sreekanti博士毕业于加州大学伯克利分校的RISE实验室，研究数据系统和分布式系统，Joseph E. Gonzalez是加州大学伯克利分校教授，二人联合创立了为LLM堆栈提供开发者平台的公司RunLLM，其产品通过提供简单易用、可扩展的组件，用户能够快速定义、部署和运行基于LLM的应用程序。

（本文由OneFlow编译发布，转载请联系授权。原文：https://generatingconversation.substack.com/p/openai-is-too-cheap-to-beat）

来源 | Generating Conversation

OneFlow编译

翻译｜杨婷、宛子琳

自互联网出现以来，数据飞轮催生了一些巨型公司，先是Google和各类社交媒体，现在又涌现出OpenAI和其他语言大模型供应商。

仅仅OpenAI的用户使用量就可能超过了其他大模型供应商的总和，而Google和Anthropic则占据了大部分剩余的市场份额。这些公司正大量收集数据，他们不仅可以看到用户提示，还能获得明确反馈（赞或踩）以及隐含反馈（例如，他们会提醒用户在没有得到理想答案的情况下，针对问题提供更多细节）。此外，他们还积极与客户沟通，了解LLM用户的需求和模型局限。

上述数据和反馈对未来模型的训练至关重要，并且相关投资也在加速增长。Anthropic的首席执行官Dario Amodei最近预测，在未来两年内，他们的模型成本将达到100亿美元。

模型质量固然重要，但这只占模型优势的一部分。基础设施的可扩展性和模型服务的质量是这些公司更重要的护城河。下面以微调API为例加以说明。

RunLLM团队最近在使用GPT的微调API进行实验。GPT-3.5一次微调运行的成本在4-12美元之间，微调100万个词元大约需要1-1.5小时。

同时，AWS上一台p4d.24xlarge的费用为32.77美元每小时（按需收费），若订购1年，费用则为19.22美元每小时。每台机器配备了8个Nvidia A100 GPU。假设OpenAI只使用8个GPU去微调GPT-3.5，那么相比从亚马逊租用p4d.24xlarge，OpenAI要便宜3-8倍，这还是在不考虑部署和运行任务所需专业技术知识的情况下的价格。

显然，亚马逊AWS对其提供的EC2实例收取了溢价。与此相比，OpenAI的成本则包括：训练和存储模型权重（可能采用了相对便宜的LoRA技术），构建和维护微调基础设施，以及在内部管理大量GPU所需的专业知识[1]。

如果有足够密集的工作负载，则可以考虑按年预订p4d.24xlarge，以每小时19.22美元的费用计算，年费约为16.6万美元。

假设我们再次使用LoRA在8个A100 GPU上对模型进行微调，每次微调运行可能需要2个小时。每天可以进行12次微调运行，在这些GPU上，每年可以进行4380次微调运行。我们可以指派一名工程师负责部署、检查和验证微调运行（我们对他们感到钦佩！），那每年可能会花费约20万美元。（假设我们有大量可用数据，可持续进行微调作业。）

如果以每年36.6万美元（其中16.6万美元用于AWS，20万美元用于人力）的费用计算，每次微调的成本约为80美元，这比我们向OpenAI支付的费用高出8-20倍！

这还只是模型的微调成本，尽管经微调的GPT-3.5单个词元的推理成本比GPT-3.5贵10倍，但仍比GPT-4便宜10倍！自行在硬件上部署模型服务的成本会大幅增加，除非能达到足够大的规模，充分利用服务器硬件或实现弹性扩展（而在GPU资源有限时不可能实现这一点）。

以上的粗略估算证明了关键的一点：对于主要的语言大模型供应商，其优势不仅在于模型质量，还在于他们能够以极高的规模经济效益提供模型服务。对大多数组织而言，没有良好的基础设施，自己去部署语言模型在经济成本上毫无意义。他们没必要浪费时间、人力和财力投入到一个无法解决的优化问题中，而竞争对手则会在OpenAI的基础之上进行技术集成，更快地进步并可能实现更好的模型质量。

当然，这并不意味着开源模型没有未来。上周，Nathan Lambert在Interconnects上也发布了一篇关于开源模型未来的文章。开源模型必须随时间的推移大大降低成本、应用复杂性，并发挥在定制需求方面的优势。

在其他领域，主要的语言模型供应商将占据主导地位。

注释：

[1] 你也许很好奇OpenAI是否会为了占据市场份额而承担微调和服务成本，就像Uber和Lyft在网约车市场多年来的做法。众所周知，这些网约车公司并没有如许多人预测的那样彻底扼杀竞争，但软件基础设施方面的切换成本远高于手机App的切换成本。即使价格最终上涨，这些公司仍将主导市场，它们仍有巨大的差距需要填补，直至达到自研模型的成本水平。

需要注意的是，我们正在比较AWS提供的现有GPU价格与OpenAI在Azure上可能包含高额度补贴的GPU定价，而OpenAI的规模只会进一步巩固他们在这方面的优势。

其他人都在看

试用OneFlow: github.com/Oneflow-Inc/oneflow/

OpenAI的规模化经济效益与第二护城河

猜你喜欢