8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

391次阅读
没有评论

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

计算产业发展的历程,就是一个专用与通用对立统一、交替发展的过程。

克雷西 henry 发自 凹非寺

量子位 | 公众号 QbitAI

一百万Token的输出推理成本,只要一块钱了。

今年的人工智能计算大会上,浪潮信息发布了超扩展AI服务器元脑HC1000,把AI推理成本狠狠地打了下来。

与此同时,浪潮信息还推出另一杀手锏——元脑SD200超节点,也将DeepSeek-R1的Token生成时间打到了毫秒量级。

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化浪潮信息首席AI战略官刘军

随着AI竞赛进入智能体产业化阶段,能力、速度和成本成为了决胜的核心三要素。

浪潮信息打出的这套组合拳,针对的就是其中涉及到AI Infra的两项关键指标——速度与成本。

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

元脑SD200和元脑HC1000,将为多智能体协同与复杂任务推理的规模化落地,提供高速度、低成本的算力基础设施。

DeepSeek-R1推理进入10ms时代

首先来看元脑SD200超节点AI服务器。

它可以在单机内同时运行DeepSeek-R1、Kimi K2等四大国产开源模型,支持超万亿参数大模型推理以及多智能体实时协作,还支持同时运行64个AlphaFold3蛋白质预测模型。

特别是在速度上,元脑SD200率先将大模型端到端推理延迟控制在了10ms以内。

实测中,元脑SD200在运行DeepSeek-R1时,TPOT(每Token输出时间)仅有8.9ms,领先了前SOTA(15ms)近一倍,还使DeepSeek-R1 671B的推理性能实现了最高16.3倍的超线性扩展率

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

并且元脑SD200并没有因为速度而牺牲系统的稳定性与可靠性,而是分别在系统硬件层、基础软件层和业务软件层等层面进行针对性设计和优化,保证整机运行高可靠设计,真正做到了“快而不乱”。

为什么元脑SD200如此强调“速度”?

因为速度已经成为智能体时代AI竞争的关键变量。

随着AI进入智能体时代,交互方式发生了巨大改变,过去大模型只需进行人机对话,但现在还需要智能体与智能体之间的交流,对模型的生成速度更加敏感。

特别是在实际应用场景中,智能体与智能体之间的交互轮次更多,延迟会随这一过程不断累积,导致整个系统运行速度无法被用户接受,在竞争中将成为致命缺陷。

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

除了用户的直观感受,造成商业场景对速度要求苛刻的原因还有许多。

比如在金融交易当中,对响应时效的要求极为苛刻,反欺诈算法需要在10毫秒的时间里识别风险交易,否则后果不堪设想。

因此,Token生成速度不仅影响用户体验,更直接关乎商业产出的稳定性与可靠性。

那么,制约Token生成速度提升的因素,又是什么呢?

问题主要出在了通信环节。

当参数规模快速突破万亿级别,模型必须拆分到几十甚至上百张卡上时,原本在单机内部的高速通信变成了跨机的网络传输,通信就成为了更严峻的挑战。

特别是在处理推理过程中大量的小数据包时,延迟问题变得极为突出,而且每一次跨机通信都可能带来额外延迟,当多个万亿级模型需要实时协作时,传统架构已经完全无法应对。

针对这些问题,元脑SD200先是在架构层面进行了革新。

具体来说,元脑SD200采用了创新的多主机3D Mesh系统架构,由自研的Open Fabric Switch贯通,将多个主机的GPU资源整合成一个统一的计算域,并且当中能够实现跨主机域全局统一编址。

这一架构让显存统一地址空间扩增8倍,可实现单机64路的Scale up纵向扩展,最大可以提供4TB显存和64TB内存,构建超大的KV缓存分级存储空间。

并且通过Smart Fabric Manager,元脑SD200实现了超节点64卡全局最优路由的自主创建,保障AI芯片间通信路径最短,进一步缩短基础通信延迟。

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

除了架构,在互联协议方面,为了实现极低的Latency通信,元脑SD200采用了极简的三层协议栈,无需网络/传输层,仅凭物理层、数据链路层和事务层三层即可实现GPU直接访问远端节点的显存或主存。

这种模式无需“发送-接收”式的消息语义拷贝,将基础通信的延迟打到了百纳秒级。

同时,为了实现稳定可靠通信,元脑SD200原生支持由硬件逻辑实现的链路层重传,可将重传延迟降低至微秒级;通过采用分布式、预防式流控机制,从根本上避免拥塞和丢包。

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

此外,元脑SD200还通过采用通信库优化、并行推理框架、PD分离策略及动态负载均衡等创新技术,充分发挥超节点的性能优势。

最终DeepSeek-R1 671B推理,从16卡扩展到64卡,实现了16.3倍超线性的扩展率。

百万Token推理只要一块钱

除了元脑SD200,浪潮信息还带来了超扩展AI服务器元脑HC1000

元脑HC1000不仅支持极大推理吞吐量,还能让单卡成本降低60%、均摊系统成本降低50%,将每百万Token输出成本降低至1元。

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

如果说速度是智能体应用的生命线,那么成本则决定了度过生存关的应用能否实现盈利。

在智能体时代,Token消耗量正在暴增,以辅助编程为例,每月消耗的Token数比一年前增长了50倍。

如果从经济角度考虑,企业每部署一个智能体,平均每个月消耗的Token成本将达到5000美元。

并且随着任务复杂度、使用频率等指标不断攀升,据浪潮信息预计,未来5年智能体应用带来的Token消耗将呈现出指数级增长。

8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化

Token数量只增不减,如果不把单个Token成本打下来,那么在高强度交互的智能体环境中,Token成本必定成为规模化部署的瓶颈。

那么,Token推理成本又为什么居高不下呢?

推理阶段算效(MFU)低是主要原因。

具体来说,在训练时,模型的FLOPs的利用率可能达到50%,但在推理阶段,这个数值可能低出一个数量级。

进一步的原因是推理的每个阶段的运算特点均不相同,与算力不能实现有效匹配。

元脑HC1000瞄准的出发点正在于此——

既然每个阶段有不同的运算特点,那就将推理的计算流程拆解,对模型结构进行解耦。

元脑HC1000不仅将推理过程的Prefill和Decode阶段分离,还将Decode阶段进一步分解成了注意力运算和FNN,从而提高资源利用效率。

解耦之后的另一个好处是,对于芯片的指标要求不再是“五边形战士”,可以针对性地做进一步成本削减,节约成本的同时还能降低功耗。

在硬件层面,元脑HC1000创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。

据测算,元脑HC1000的推理性能相比传统RoCE提升1.75倍,单卡模型算力利用率最高提升5.7倍。

另外,元脑HC1000还采用全对称DirectCom极速架构,能够以超低延迟直达通信,保障计算、通信实现1:1均衡分配。

面向未来的AI创新计算架构

面向智能体AI时代,浪潮信息通过元脑SD200与元脑HC1000两大杀手锏,破解了智能体规模化落地中的速度与成本两大关键难题。

一方面,在智能体商业化过程中,Agent应用往往遵循“快杀慢”的规律——

面对海量选择,用户更倾向于选择输出速度更快、交付效率更高的工具;

另一方面,随着应用规模扩大、交互频次提升,行业关注的重点也从单纯算力转向总体拥有成本,尤其是直接影响商业可行性的单Token成本。

基于此,浪潮信息面向未来智能体的商业化场景,在速度与成本上率先突围,把“百万Token上下文”从高成本的技术演示,转化为可规模化运营的现实能力。

然而,AI算力的可持续发展依然面临三大挑战——系统规模接近工程极限电力基础设施压力巨大,以及算力投入与产出不平衡

在此背后,是GPGPU主导的通用计算架构的局限性正在逐渐显现。

因此,有必要转变思维,思考新的路径,从规模导向转为效率导向,重新规划和设计AI计算架构,发展AI专用计算系统。

浪潮信息首席AI战略官刘军指出:

通用架构效率低,但适应性强,易于产业化推广;专用架构效率高,但应用面窄,不利于普及推广。计算产业发展的历程,就是一个专用与通用对立统一、交替发展的过程。

这意味着,以GPGPU等主导的通用AI计算架构正在面临多重挑战,正在向细分化、专业化的应用阶段加速转型。

顺应这一趋势,浪潮信息通过软硬件协同设计与深度优化,面向具体应用,探索AI下半场的算力新路径。

目前,浪潮信息已经交出了元脑SD200和元脑HC1000这样的答卷。

未来,其将进一步针对核心算法算子进行硬件化、电路化设计,实现性能的数量级提升,从而有效应对未来Token规模持续增长所带来的巨大计算需求,为智能体时代的高效落地提供可持续、可扩展的基础设施保障。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...