华为云黄瑾:昇腾云CloudMatrix 384 超节点定义下一代AI基础设施

611次阅读
没有评论

华为云黄瑾:昇腾云CloudMatrix 384 超节点定义下一代AI基础设施

做好智能世界云底座和使能器,加速行业智能跃迁

5月16日,华为云AI峰会在北京召开,华为云副总裁黄瑾发表主题演讲,介绍了更多CloudMatrix 384 超节点技术优势与细节。他指出,随着大模型训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑AI技术的代际跃迁,超节点架构的诞生不仅是技术的突破,更是以工程化创新开辟AI产业的新路径。华为云CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势,以系统架构创新重新定义新一代AI基础设施。

华为云黄瑾:昇腾云CloudMatrix 384 超节点定义下一代AI基础设施

华为云副总裁黄瑾

重新定义AI基础设施架构,开辟算力新纪元

当前,大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练,到现在MoE、长序列、多模态大模型都在AI集群上训练的演进过程。AI算力的瓶颈,从单卡算力的瓶颈到单机内总线带宽的瓶颈,再到现在集群间通信带宽的瓶颈,需求增长了1万倍。

然而过去的8年里,单卡硬件的算力增长了40倍,但是节点内的总线带宽只增长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。

黄瑾表示,面对这些挑战,华为云创新性的推出了采用全对等互联架构的CloudMatrix 384超节点。这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构,直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。通过新型高速互联总线实现384 张卡互联成为一个超级云服务器,最高提供300Pflops的算力规模,比业界同类产品领先67%。

解码六大优势,CloudMatrix 384超节点重构AI算力架构

目前,基于CloudMatrix的超节点集群已经在芜湖、贵安、内蒙规模上线,黄瑾进一步深入解读了六大技术创新点:

华为云黄瑾:昇腾云CloudMatrix 384 超节点定义下一代AI基础设施

MoE亲和架构,从“小作坊”到“超级工厂”。在传统架构下,MoE模型训练容易因通信延迟导致算力浪费,而CloudMatrix 384超节点的分布式推理平台可以说是专为MoE大模型而生。黄瑾指出,对比一卡多专家的“小作坊模式”,超节点更像“大工厂模式”,通过高速互联总线,能够实现一卡一专家高效分布式推理,单卡的MoE计算和通信效率都大幅提升。这也是为什么有几百个政务、零售、医疗、保险、制造、矿山、旅游等各行各业的客户,基于华为云昇腾AI云服务部署DeepSeek模型的创新应用,例如在智能助手、智能客服、互联网搜索、内容创作等各种场景落地。

以网强算,双层网络破解“数据堵车”。当AI算力走向规模化部署,单点的芯片性能不再是制约算力发展的唯一变量,如何由点及面地激活算力矩阵的共振效应,也是破解AI时代算力命题的关键一步。而释放联接力也正是超节点最大的创新突破之一,黄瑾介绍,传统网络像拥堵的城市道路,CloudMatrix 384则构建了AI专属高架桥,通过MatrixLink服务将单层网络升级为两层高速网络,一层是超节点内部的ScaleUp总线网络,确保超节点内384卡全对等高速无阻塞互联,卡间超大带宽2.8T,纳秒级时延;另一层是跨超节点间的ScaleOut网络,可支持微秒级时延,资源弹性扩展;同时,基于全局拓扑感知的智能调度算法,保障客户任务长稳运行。

以存强算,弹性内存改写“算存绑定”。 华为云首创了EMS弹性内存存储,打破传统GPU算力与显存绑定的关键障碍,通过内存池化技术,实现显存和算力解绑。一方面,用EMS替代NPU中的显存,可使得首Token时延降低,最高降幅可达 80%;另一方面,当NPU的显存不足时,EMS独立扩容,不必再通过堆NPU以获得更多内存。同时,EMS还支持算力卸载,这也使得系统吞吐量提升,有的场景达100%的提升。总之,这一技术创新大幅提升了资源利用率、性能和吞吐量。

长稳可靠,故障自愈的“AI医生”。随着模型训练需求的不断接入,大集群的运维难度大、复杂性高的问题日益凸显。对此,华为云开发了昇腾云脑运维“1-3-10”标准,即 1 分钟感知、3分钟定界、10 分钟内恢复。通过5层压测、静默故障感知技术,昇腾云脑可将硬件故障感知率从40%提升至90%。同时,覆盖计算、存储、网络、软件四大种类故障模式库也打通了全栈故障场景,这一全栈故障知识库能够覆盖95%常见问题以实现故障快速定界;在恢复机制上,3层快恢技术、快速建链技术、图编译缓存等技术能够实现万卡故障快速恢复。

朝推夜训,算力资源“错峰用电”。在大模型训练中,提升算力利用率,避免算力闲置也是企业关心的重点之一。CloudMatrix 384超节点通过“训推共池”“灵活调度”两大关键技术实现朝推夜训,白天进行模型推理,晚上闲时进行模型训练,算力资源利用率可提升30%以上。

即开即用,“算力水电”普惠模式。为助力客户更好地专注业务模型开发,华为云已经在全国三大枢纽数据中心——乌兰察布、贵安和芜湖完成了超节点规模布局,支持百TB级的带宽互联,10毫秒时延圈覆盖全国19个城市群,让客户能够第一时间享受到即开即用的AI算力资源。同时,华为云拥有专业的超节点运维团队,在为客户免去繁琐的管理和维护的同时,保障资源的稳定运行。

做好智能世界云底座和使能器,加速行业智能跃迁

如今AI已经成为最有影响力的通用技术,如何将技术价值转化为应用成果,成为千行百业面临的核心课题。华为云超节点创新系统架构的背后,是华为云坚持“昇腾云服务支持百模千态,盘古大模型重塑千行万业”的战略。

黄瑾强调,一直以来华为云持续推动昇腾AI云服务全面升级,通过打磨昇腾云的训练、推理的性能、可靠性和性价比,为中国乃至全球客户提供好用、易用的AI算力云服务。现已全面适配了DeepSeek在内的160多个大模型,以云服务的方式,协助客户进行模型的开发,训练,托管和应用。昇腾AI云服务上线以来,面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家创新先锋企业,加速行业智能化应用的快速落地。

在充满突破和创新的AI发展过程中,每一个阶段都会产生大量的新技术、新模式,企业唯有抓住AI时代机遇,才能抢占发展先机。黄瑾表示,面向智能世界,华为云致力于做好行业数字化的“云底座”和“使能器”,坚定打造AI算力底座,以安全、稳定、高质量、持续创新的AI云服务,赋能千行万业应用创新,携手伙伴、客户加速行业智能跃迁。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 5 月
 1234
567891011
12131415161718
19202122232425
262728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式 十三 2026-01-07 12:47:06 来源:量子位 树立...
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026 量子位的朋友们 2026-01-06 16...
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了 梦瑶 2026-01-0...