华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群

540次阅读
没有评论

华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群

“数字化风洞”

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

就在刚刚,华为首次亮相了一套“虚”技术——

数字化风洞,一个在正式训推复杂AI模型之前,可以在电脑中“彩排”的虚拟环境平台

华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群

这套有种《黑客帝国》意味般的技术(都是通过虚拟世界预演现实),是由华为马尔科夫建模仿真团队构建,可以小时级预演万卡集群方案

而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合上。

于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配置。

一言蔽之,为的就是避免浪费时间和算力

更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点:

  • 训练阶段:类似猛踩油门,但算力、内存、通信如果搭配不当,效率会暴跌;
  • 推理阶段:任务差异极大,既要短问答(像城市超跑),又要长文本生成(像越野耐力赛),硬件很难同时满足;
  • 万卡集群:好比管理一个庞大车队,要避免“堵车”、“故障”,确保长时间稳定运行。

而数字化风洞在这个过程中起到的作用,就像是一位让AI算力“少踩坑、跑得更快更稳”的智能调度专家。

并且是对上述三大痛点逐一击破的那种。

Sim2Train:小时级自动寻优

训练大模型这件事可以说是越来越复杂,例如由于参数量越发庞大,就会对硬件提出更高的要求,传统的调度策略没法充分发挥它们的潜力。

因此,华为团队提出了一个叫做Sim2Train的仿真平台,用来模拟训练过程,找到最优的硬件配置和训练策略,让昇腾设备跑得更快、更高效。

这个平台主要的发力点在两个方面。

首先是模拟训练过程

具体的方法叫做动静态融合的大规模训练集群建模仿真,可以通过模块化拼装AI任务流程,像搭积木一样灵活构建复杂模型,快速分析计算、内存和通信的资源消耗。

再结合对昇腾硬件的深度适配能力,静态规划与动态调优双管齐下,精准提升大规模训练集群的运行效率。

其次是自动寻找最优方案

它可以实现面向昇腾平台的模型结构智能搜索与优化,做到模型性能与功能能力的最优均衡。

面对CloudMatrix昇腾超节点复杂拓扑结构,Sim2Train还可以做到芯片级、拓扑级与负载级的全栈架构建模与策略联合优化。

并且基于实时数据采集与自动反馈校准机制,完成对硬件的细粒度抽象建模,全面支撑昇腾集群在多样化负载场景下的高效部署策略自动求解与智能生成。

华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群

△Sim2Train训练仿真系统框架

Sim2Infer:分钟级动态加速

除了训练阶段,华为在仿真推理过程中也有妙招——Sim2Infer,让端到端推理性能提升30%

它是一个多层级的推理系统建模仿真,核心能力可以分为五点:

  1. 模拟负载特征:把不同模型和输入数据的计算、内存访问、通信需求用数学模型表示出来。比如,MoE 模型中,不同专家被激活的频率、数据在不同设备间的传输量等。
  2. 分析硬件架构:从芯片微架构(如3D Cube张量加速引擎)到整个集群的网络拓扑(如多台服务器怎么互联),全方位模拟硬件性能。
  3. 描述部署策略:支持配置各种推理策略,比如数据并行(多个设备处理不同数据)、张量并行(拆分计算任务)等,看哪种策略在昇腾上效率最高。
  4. 驱动仿真运行:用 “离散事件” 模拟推理过程,比如某个算子何时开始计算、数据何时传输,精确计算整个推理流程的耗时。
  5. 自动搜索优化:给定约束条件(如延迟不超过20ms),自动搜索最优的模型结构、部署策略和硬件配置。

除此之外,Sim2Infer还通过软硬协同的建模仿真驱动一系列的推理系统创新优化。包括:

  1. 建模分析系统参数与模型设计因素的关联关系,提出昇腾推理亲和的MoE模型结构建议。
  2. 大EP场景MoE模型的最佳推理部署方案寻优。
  3. 通过多维代价模型建模,从访存优化、负载均衡、计算通信掩盖、算子融合等多维度实现基于昇腾平台的软硬件协同推理加速创新。
华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群

△Sim2Infer推理仿真系统框架

Sim2Availability:秒级故障定位

除了训推之外,如何保证大模型在诸如万卡集群上稳定、有效运行,也是一个关键问题——高可用

为此,同样是以仿真的形式,华为的解法便是Sim2Availability

就像用电脑模拟天气一样,这个框架通过建立马尔科夫模型,在计算机里 “虚拟” 出一个集群,模拟各种故障发生,检测及后续影响和恢复的过程,从而分析如何提升可用度。

Sim2Availability在做模拟的关键环节包括:

  • 故障 “生成器”:模拟各种硬件故障,比如NPU出错、内存错误、光模块闪断等,还能模拟多种故障同时发生的情况。
  • 故障 “探测器”:模拟如何检测这些故障,比如通过算法判断网络是否变慢、硬件是否异常,检测的准确性会影响恢复效率。
  • 故障 “影响分析”:比如NPU故障会让训练中断,需要重启;光模块故障会让网络传输变慢,导致训练速度下降。
  • 恢复 “策略库”:针对不同故障设计不同恢复方法,比如 “Step级回滚”(只回退一步训练数据)、“进程级恢复”(只重启有问题的进程)、“全量恢复”(整个作业重启)等。

这些环节可以高效精准构建集群系统对计算、存储、网络的“状态监控”,通过马尔科夫链刻画系统的随机行为,将系统离散化为有限状态(如“健康”、“亚健康”、“故障”等),并基于事件驱动构建状态转移模型,从宏观视角掌控全局硬件系统状态。

华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群

△Sim2Availability高可用仿真系统框架

以上便是关于华为“数字化风洞”的大致内容,更多详情可戳。

技术报告地址:
https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/SystemSim/ascend-cluster-infra-sim.md

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...