字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

随着对Sora技术分析的展开，AI基础设施的重要性愈发凸显。

来自字节和北大的一篇新论文在此时吸引关注：

文章披露，字节搭建起的万卡集群，能在1.75天内完成GPT-3规模模型（175B）的训练。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

具体来说，字节提出了一个名为MegaScale的生产系统，旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。

在12288块GPU上训练1750亿参数大语言模型时，MegaScale实现了55.2%的算力利用率（MFU），是英伟达Megatron-LM的1.34倍。

论文还透露，截止2023年9月，字节已建立起超过1万张卡的Ampere架构GPU（A100/A800）集群，目前正在建设大规模Hopper架构（H100/H800）集群。

适用于万卡集群的生产系统

大模型时代，GPU的重要性已无需赘述。

但大模型的训练，并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别，如何实现高效、稳定的训练，本身就是一个颇具挑战的工程问题。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

第一重挑战：效率。

训练大语言模型并非简单的并行任务，需要在多个GPU之间分布模型，并且这些GPU需要频繁通信才能共同推进训练进程。通信之外，操作符优化、数据预处理和GPU内存消耗等因素，都对算力利用率（MFU）这个衡量训练效率的指标有影响。

MFU是实际吞吐量与理论最大吞吐量之比。

第二重挑战：稳定性。

我们知道，训练大语言模型往往需要花费非常长的时间，这也意味着，训练过程中失败和延迟的现象并不鲜见。

失败的成本是高昂的，因此如何缩短故障恢复时间变得尤为重要。

为了应对这些挑战，字节跳动的研究人员构建了MegaScale，并已将其部署到字节的数据中心中，用以支持各种大模型的训练。

MegaScale是在英伟达Megatron-LM的基础上改进的。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

具体改进包括，算法和系统组件的共同设计、通信和计算重叠的优化、操作符优化、数据流水线优化以及网络性能调优等：

算法优化：研究人员在模型架构中引入并行化的Transformer块、滑动窗口注意力机制（SWA）和LAMB优化器，来提高训练效率而不牺牲模型的收敛性。
通信重叠：基于对3D并行（数据并行、流水线并行、张量并行）中各个计算单元操作的具体分析，研究人员设计技术策略有效地减少了非关键执行路径上操作所带来的延迟，缩短了模型训练中每一轮的迭代时间。
高效操作符：对GEMM操作符进行了优化，对LayerNorm和GeLU等操作进行了融合，以减少启动多个内核的开销，并优化内存访问模式。
数据流水线优化：通过异步数据预处理和消除冗余的数据加载器，来优化数据预处理和加载，减少GPU空闲时间。
集体通信群初始化：优化了分布式训练中英伟达多卡通信框架NCCL初始化的过程。在未经优化的情况下，2048张GPU的集群初始化时间是1047秒，优化后可降至5秒以下；万卡GPU集群的初始化时间则可降至30秒以下。
网络性能调优：分析了3D并行中的机器间流量，设计技术方案提高网络性能，包括网络拓扑设计、减少ECMP哈希冲突、拥塞控制和重传超时设置。
故障容忍：在万卡集群中，软硬件故障难以避免。研究人员设计了一个训练框架，来实现自动故障识别和快速恢复。具体包括，开发诊断工具来监控系统组件和事件、优化checkpoint高频保存训练进程等。

论文提到，MegaScale能够自动检测和修复超过90%的软硬件故障。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

实验结果表明，MegaScale在12288个GPU上训练175B大语言模型时，实现了55.2%的MFU，是Megatrion-LM算力利用率的1.34倍。

训练530B大语言模型的MFU对比结果如下：

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

One More Thing

就在这篇技术论文引发讨论之际，字节类Sora产品也传出了新消息：

剪映旗下类似Sora的AI视频工具已经启动邀请内测。

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

看样子地基已经打好，那么对于字节的大模型产品，你期待吗？

论文地址：
https://arxiv.org/abs/2402.15627

— 完 —

报名中！

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项，欢迎报名评选！

评选报名截至2024年3月31日

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

中国AIGC产业峰会同步火热筹备中，了解更多请戳：Sora时代，我们该如何关注新应用？一切尽在中国AIGC产业峰会

商务合作请联络微信：18600164356 徐峰

活动合作请联络微信：18801103170 王琳玉

点这里👇关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

2024 年 3 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

适用于万卡集群的生产系统

One More Thing

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI

适用于万卡集群的生产系统

One More Thing

文心AIGC

鱼羊发自凹非寺
量子位 | 公众号 QbitAI