尽管业内相继开源了不少表现出色的语言大模型,但相对OpenAI的闭源模型的高昂部署成本,让大多数想使用开源LLM模型的组织往往望而却步。
OpenAI在成本方面的优势,一方面来自规模效应,另一方面来自其基础设施方面的深厚积累。开源LLM提供商要取得成功,必须在这两方面追上甚至超越OpenAI。
此外,作者认为,开源LLM还需要不断改进,降低应用复杂性,并发挥在定制需求方面的优势。
本文作者Vikram Sreekanti博士毕业于加州大学伯克利分校的RISE实验室,研究数据系统和分布式系统,Joseph E. Gonzalez是加州大学伯克利分校教授,二人联合创立了为LLM堆栈提供开发者平台的公司RunLLM,其产品通过提供简单易用、可扩展的组件,用户能够快速定义、部署和运行基于LLM的应用程序。
(本文由OneFlow编译发布,转载请联系授权。原文:https://generatingconversation.substack.com/p/openai-is-too-cheap-to-beat)
来源 | Generating Conversation
OneFlow编译
翻译|杨婷、宛子琳
自互联网出现以来,数据飞轮催生了一些巨型公司,先是Google和各类社交媒体,现在又涌现出OpenAI和其他语言大模型供应商。
仅仅OpenAI的用户使用量就可能超过了其他大模型供应商的总和,而Google和Anthropic则占据了大部分剩余的市场份额。这些公司正大量收集数据,他们不仅可以看到用户提示,还能获得明确反馈(赞或踩)以及隐含反馈(例如,他们会提醒用户在没有得到理想答案的情况下,针对问题提供更多细节)。此外,他们还积极与客户沟通,了解LLM用户的需求和模型局限。
上述数据和反馈对未来模型的训练至关重要,并且相关投资也在加速增长。Anthropic的首席执行官Dario Amodei最近预测,在未来两年内,他们的模型成本将达到100亿美元。
模型质量固然重要,但这只占模型优势的一部分。基础设施的可扩展性和模型服务的质量是这些公司更重要的护城河。下面以微调API为例加以说明。
RunLLM团队最近在使用GPT的微调API进行实验。GPT-3.5一次微调运行的成本在4-12美元之间,微调100万个词元大约需要1-1.5小时。
同时,AWS上一台p4d.24xlarge的费用为32.77美元每小时(按需收费),若订购1年,费用则为19.22美元每小时。每台机器配备了8个Nvidia A100 GPU。假设OpenAI只使用8个GPU去微调GPT-3.5,那么相比从亚马逊租用p4d.24xlarge,OpenAI要便宜3-8倍,这还是在不考虑部署和运行任务所需专业技术知识的情况下的价格。
显然,亚马逊AWS对其提供的EC2实例收取了溢价。与此相比,OpenAI的成本则包括:训练和存储模型权重(可能采用了相对便宜的LoRA技术),构建和维护微调基础设施,以及在内部管理大量GPU所需的专业知识[1]。
如果有足够密集的工作负载,则可以考虑按年预订p4d.24xlarge,以每小时19.22美元的费用计算,年费约为16.6万美元。
假设我们再次使用LoRA在8个A100 GPU上对模型进行微调,每次微调运行可能需要2个小时。每天可以进行12次微调运行,在这些GPU上,每年可以进行4380次微调运行。我们可以指派一名工程师负责部署、检查和验证微调运行(我们对他们感到钦佩!),那每年可能会花费约20万美元。(假设我们有大量可用数据,可持续进行微调作业。)
如果以每年36.6万美元(其中16.6万美元用于AWS,20万美元用于人力)的费用计算,每次微调的成本约为80美元,这比我们向OpenAI支付的费用高出8-20倍!
这还只是模型的微调成本,尽管经微调的GPT-3.5单个词元的推理成本比GPT-3.5贵10倍,但仍比GPT-4便宜10倍!自行在硬件上部署模型服务的成本会大幅增加,除非能达到足够大的规模,充分利用服务器硬件或实现弹性扩展(而在GPU资源有限时不可能实现这一点)。
以上的粗略估算证明了关键的一点:对于主要的语言大模型供应商,其优势不仅在于模型质量,还在于他们能够以极高的规模经济效益提供模型服务。对大多数组织而言,没有良好的基础设施,自己去部署语言模型在经济成本上毫无意义。他们没必要浪费时间、人力和财力投入到一个无法解决的优化问题中,而竞争对手则会在OpenAI的基础之上进行技术集成,更快地进步并可能实现更好的模型质量。
当然,这并不意味着开源模型没有未来。上周,Nathan Lambert在Interconnects上也发布了一篇关于开源模型未来的文章。开源模型必须随时间的推移大大降低成本、应用复杂性,并发挥在定制需求方面的优势。
在其他领域,主要的语言模型供应商将占据主导地位。
注释:
[1] 你也许很好奇OpenAI是否会为了占据市场份额而承担微调和服务成本,就像Uber和Lyft在网约车市场多年来的做法。众所周知,这些网约车公司并没有如许多人预测的那样彻底扼杀竞争,但软件基础设施方面的切换成本远高于手机App的切换成本。即使价格最终上涨,这些公司仍将主导市场,它们仍有巨大的差距需要填补,直至达到自研模型的成本水平。
需要注意的是,我们正在比较AWS提供的现有GPU价格与OpenAI在Azure上可能包含高额度补贴的GPU定价,而OpenAI的规模只会进一步巩固他们在这方面的优势。
其他人都在看
试用OneFlow: github.com/Oneflow-Inc/oneflow/