GPU瓶颈到底卡住了谁?

1,186次阅读
没有评论

GPU Utils 发布了一份关于英伟达GPU——主要是H100的研究报告,试图梳理有关GPU供应和需求的相关问题。在这篇主要针对美国市场的报告中,我们看到了目前阻碍大模型和人工智能发展的关键瓶颈GPU短缺是如何形成和发展的。

总的来说,GPU瓶颈的出现原因是多方面的,环环相扣的复杂工艺制造流程,半导体周期,对稀缺资源的抢占与恐慌乃至未曾预料到的人工智能的突然爆发,都让GPU算力变得无比紧张。

乐观地看,2024年这一瓶颈或许会有所缓解。

GPU瓶颈到底卡住了谁?H100 GPU

1、数十万张缺口,一百五十亿需求

每个想要在人工智能爆发中分一杯羹的人都需要GPU。准确地说,是英伟达的A100H100,它们在训练和推理大模型中扮演关键角色。如果要想要从头训练大模型,至少需要上千张A100H100,而推理和微调大模型也至少需要储存100张。

具体到每家的数量上,报告汇总了一些数据:GPT41万到2.5万块A100上训练,Meta2.1万块A100,特斯拉有7000块,Stability AI5000块,谷歌云大概有2.5万块H100,微软Azure 1万到4万块,甲骨文可能也有同样多的H100。值得一提的是,AzureGPU基本都用来供应OpenAI的训练了。

而根据马斯克的说法,GPT5的训练可能会用到3万到5万张H100,因此对未来的估计上,报告指出OpenAI可能需要5万张H100Meta至少需要2.5万张(也有人说实际上需要10万乃至更多),所有的云服务厂商,微软、谷歌云和亚马逊云以及甲骨文各需要3万张,私有云服务商,比如刚刚融资的CoreWeave等总需求是10万张,而像Claude开发者Anthropic这样的初创公司也都至少需要1万张GPU

另外,一些金融公司比如JP Morgan等也在部署A100H100,因此总体上看,对H100的需求超过了43万张。

这还是不算中国市场的情况,由于制裁原因,字节跳动、百度、腾讯和阿里巴巴只能大量购买A100和H100的替代产品A800与H800,这一部分的需求没有列入其中,根据《金融时报》的说法,其总额高达50亿美金。

如果将这些数字相加,这就是目前英伟达面对的,总计规模高达200亿美元的GPU需求。

GPU瓶颈到底卡住了谁?H100家族,从单个GPU到组合扩展而成的工作站和服务器。

黄仁勋没有骗我,买的越多,省得越多

作为A100的更新版,H100拥有着更好的性能,尽管它的价格更昂贵,单张约为3.5万美元。

根据产量需求和成本,大部分企业都把A100H100混用以节省成本。具体来说,在大模型训练环节往往会使用3.2Tb/s 无限带宽(IB)的H100
GPU
,在模型推理环节,则往往也可以使用A100

相比A100H100的升级主要体现在具有更低的缓存延迟和FP8计算能力,这两者都显著提升了显卡处理模型的效率。另外,H100还具有更好的拓展性,方便实现大规模部署。

总的来说,H10016位训练速度快了2.3倍,推理速度快了3.5倍,而它的成本——根据报告所说,仅是A1001.5倍到2倍。

这正是黄仁勋在不同场合都反复强调的,the more you buy, the more you save. 买的越多,省得越多。

关于H100芯片的组合形式有多种,包括英伟达自己设计DGX
H100
,但市场上大部分公司都选择购买8GPU版本的HGX H100 服务器,它是由英伟达的合作伙伴们生产的,价格大致在36万到38万美元之间。

HGX也有两种版本,配备SXM接口或者PCIe接口,报告指出市场上70%80%的需求都是SXM H100,因为这种接口可以实现最大的吞吐量并且不需要连接电源。

市场对H100的趋之若鹜,与竞争对手形成了鲜明的对比。

GPU瓶颈到底卡住了谁?英伟达官方给出的关于训练GPT3时A100和H100的不同表现对比

没有对手

根据英伟达的更新节奏,直到2024年底或2025年,H100的升级版才会到来,在此之前它将继续统领大模型市场。

竞争对手并没有坐以待毙,比如AMD刚刚推出了名为MI300系列的芯片,英特尔也有名为Gaudi2的加速计算芯片,它们至少在理论上都是英伟达的竞争对手。

然而在实际上,他们面对着比英伟达更大的问题。

报告中主要指出AMD的问题。首先重新配置AMD的设备——就算它可以完美适用大模型训练任务,也需要开发和调试的时间,这意味着在时间上会落后于竞争对手。

其次,一个模型的训练成本接近3亿美元,对芯片的需求往往会超过1万张,没有人会冒风险大规模使用除了英伟达以外的芯片。

最后,限制英伟达GPU的瓶颈——复杂的生产工艺,同样也在限制着AMD的产量——MI250同样难以获得。

至于另一个竞争对手Gaudi2,由于英特尔自己拥有工厂因此它或许在产量上有比较优势,但Gaudi2是一款几乎全新的芯片,针对它的研究和测试还非常少,事实上英特尔自己还在对其进行各种配套开发和优化,预计到今年下半年晚些时候才能调试完毕,而这时H100已经上市一年多了。

因此总结下来,目前为止H100就是是训练大模型最佳的GPU,没有之一

GPU瓶颈到底卡住了谁?H100 NVL GPU

瓶颈到底在哪里?

目前,H100的供应已经相当短缺,有传言说微软Azure和谷歌云的容量实际上已经快用完了,亚马逊云也面对同样的情况,传言目前下单需要等数月乃至半年。

导致稀缺的原因是多方面的,最根本的是,GPU是一项极端复杂的技术,需要世界上最先进的生产工艺,而掌握这项工艺的工厂——台积电,它的产能是有限的。

目前H100都由台积电代工,使用4N工艺,也就是增强型5纳米制程(相比之下A100使用的是N7),这几乎是目前最复杂的芯片制作工艺,从开始生产到出售给客户,H100中间经历的生产、包装和测试环节一共需要6个月左右,这就意味着对H100的生产需要英伟达和台积电进行提前的布局,这在半导体行业来说是经常的事,但这一次英伟达和台积电显然都对H100需求出现了错误的判断。

这很好理解,因为ChatGPT爆发是去年底的事,那时关于今年的生产计划(至少是上半年的计划)已经规划好了,台积电总体的生产能力是有限的,还需要在不同的大客户之间分配,而产能爬坡也需要一个很长的过程——不要忘记生产H100这种GPU包含着全世界最复杂的工艺流程。

报告中特别指出生其中之一的瓶颈在于所谓CoWoS封装(Chip
on wafer on Substrate
芯片、晶圆、基板封装),它目前的月产量是8000片,今年底有望提升至 11,000 片, 2024 年底则达到每月 14,500 16,600 片左右的水平,也就是说,想要提升一倍的产量,几乎需要一年半的时间,这当然也是由于生产工艺异常复杂导致。

这直接影响了H100的生产,更何况并不是只有一家在使用CoWoS封装工艺,英伟达的竞争对手AMD以及博通、思科和赛灵思等都同样在使用这种工艺制作芯片,又一次,台积电的产能瓶颈限制了GPU的供应。

另外,H100所使用的HBM3系列内存也是一个生产难点。报告指出英伟达主要在使用SK海力士的内存,后者是这一领域的领军者,特别是在HBM内存的研发上。HBM技术直接把内存堆栈放在GPU芯片上,实现了更高的带宽和更低的功耗。今年420日,SK海力士宣布在全球率先研发出12层堆叠的HBM3内存,单颗容量达到24GB。内存容量越大,意味着GPU可以装载下更大的模型,然而HBM3内存的生产过程也十分复杂,产量提升同样困难重重,实际上另外几家芯片大厂,比如三星和美光,都很难提升HBM内存的产量,据说SK海力士正在根据英伟达的要求增产,在刚刚过去的SIGGRAPH 2023 上,黄仁勋发布了GH200超级芯片的更新版, 采用了增强的HBM3E内存,这可以看作是英伟达在内存领域同供应商密切协作的一个例子。

GPU瓶颈到底卡住了谁?装有8个H100 的 HGX 服务器

稀缺性螺旋、配货机制与GPU金融化

通过和台积电以及上下游供应链的积极协调,H100的产量会逐渐提升——英伟达在财报电话会上谈到了这一点,尽管没有对具体数字做任何承诺。

然而当我们理解GPU瓶颈的时候,并不能简单把它等同于产能瓶颈,这是报告中没有明确指出,但又十分显而易见的一点——这种稀缺同时还由各种市场和非市场因素造成。

当然,首要的还是英伟达本身对产品的分配。GPU本就稀缺,因此在服务客户的角度上,英伟达推行了一套和奢侈品配货制度颇为类似的机制——由英伟达来挑选自己的客户。

报告中指出,哪些客户能拿到多少GPU有赖于英伟达的规划,而英伟达更倾向于为那些没有开发竞品芯片的企业优先分配GPU——谷歌云、亚马逊云和Meta都在开发自己的芯片,因此英伟达似乎更愿意和甲骨文合作,DGX云基础架构的第一个合作对象就是甲骨文。

其次,英伟达希望了解最终的客户是谁,它更倾向于为大企业和强大的初创公司提供算力,比如说英伟达投资的AI公司 Inflection 就拥有一个巨大的H100集群,而小型云服务商CoreWeave则拥有比谷歌云更多的H100

CoreWeave完全使用英伟达的GPU,同时也不打算自己做芯片,因此更得英伟达青睐,英伟达甚至还参与了它的B轮融资。

CoreWeaveGPU资源有多富?它使用基于H100的云服务训练GPT3大模型只用了11分钟,相比之下OpenAI用一万张A100训练了14.8天。

GPU瓶颈到底卡住了谁?CoreWeave提供的价格列表,HGX H100 每小时价格为4.76美元。

基于这种配货的机制,市场上的GPU流动更不平衡,GPU变得不是一个只要有钱就能买到的东西,这助长了另一种稀缺性——囤积居奇。

大模型的算法和数据的技术难度相对比较透明,相比之下,算力是一道扎实的无法逾越的护城河,有多少GPU直接决定了AI公司的能力强弱,因此GPU囤积变成了许多公司的一种下意识行为——宁可备而不用,不可用而不备,这当然加剧了GPU的稀缺。

迟迟不见提升的产量和坊间各种传闻(比如上面所谓的配货机制,它从来没得到过官方的证实——就像爱马仕从来也不承认有所谓配货机制一样)则造成了一种稀缺的预期,就像对通货膨胀的预期会真的导致通货膨胀一样,对缺货的预期进一步加剧了缺货。

这甚至某种程度上导致了GPU变成了一种战略资源,进而成为一种金融衍生品。CoreWeave 在八月初刚刚进行了一笔价值23亿美元的债务融资,抵押物正是手中的H100,如果这笔钱纯粹是基于对H100的市场均价(这里取37万美元)估出来的话,意味着CoreWeave手中有超过6000HGX H100,也就是近5万张显卡。

GPU瓶颈到底卡住了谁?在去年的GTC上,黄仁勋介绍H100

结语

GPU的缺货严重影响了AI的发展,OpenAI  首席执行官Sam Altman说过,使用我们产品的人越少对我们反而越好。

当然你可以说Sam Altman在得了便宜卖乖(事实上也确实是),但某种程度上,这也是他的真心话,算力瓶颈在限制着所有人,这足以说明人类对AI突破的到来多么缺乏准备。

生成式AItransformer架构都不是最新的发现,它们的理论在很早就在学界广为流传,业界也不乏大举投入其中的公司(当然,OpenAI是最坚决的那个),然而直到ChatGPTStable Diffusion出现之前,它们不过是人们认知中通往人工智能的某种方向而已,类似的方向还有很多,而并没有人真的确定哪条道路是正确的。

由此我们可以看出英伟达的布局是多么具有前瞻性,把原本用于让计算机显示图形的并行计算应用于神经网络,这让英伟达比其它任何人都更早地积累了一系列相关技术、算法以及硬件设备,并由此创造了CUDA生态,现在它们共同支撑起了英伟达万亿市值,成为一道短期内很难攻破的企业护城河。

正如GPU的产能短期内恐怕得不到解决一样,AI产业短期内依然要被英伟达的资源所左右,英伟达正在决定生成式AI的未来。

参考资料: 《Nvidia H100 GPUs: Supply and Demand》  https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/ 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 8 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...