DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

1,006次阅读
没有评论

DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

本次开源周应均与AI Infra相关

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

好消息如约而至,DeepSeek开源周第二弹来了!

DeepEP, 第一个用于MoE模型训练和推理的开源EP通信库(expert parallelism,专家并行)。

它提供高吞吐量和低延迟的all-to-all GPU内核,也称为MoE dispatch和combine。

该库还支持低精度运算,包括FP8。

同时按惯例,开源协议用的是最为宽松的MIT。

DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

今天的DeepSeek选择了先在GitHub上线,然后再在官推发上新通知

不出所料,底下一片叫好:

DeepSeek开源列车永不停止。

DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

DeepEP性能如何?

DeepSeek官推对DeepEP进行了要素提炼:

  • 高效和优化的all-to-all通信
  • NVLink和RDMA的节点内和节点间支持
  • 用于训练和推理预填充的高吞吐量内核
  • 用于推理解码的低延迟内核
  • 原生FP8调度支持
  • 灵活的GPU资源控制,用于计算通信重叠

我们先来看看性能方面的两个重点。

(注:DeepEP中的实现可能与DeepSeek-V3论文有一些细微的差异)

具有NVLink和RDMA转发的普通内核

为了与DeepSeek-V3论文中提出的组限制门控算法保持一致,DeepEP提供了一组针对非对称域带宽转发进行了优化的内核,例如将数据从NVLink域转发到RDMA域。

这些内核提供高吞吐量,使其适用于训练和推理预填充任务。

此外,它们还支持SM(Streaming Multiprocessors)号码控制。

DeepEP团队在在H800(~160 GB/s NVLink最大带宽)上测试普通内核,每个内核都连接到CX7 InfiniBand 400 Gb/s RDMA网卡(~50 GB/s 最大带宽)。

且遵循DeepSeek-V3/R1预训练设置(每批4096个tokens,隐藏7168个,前4组,前8个专家,FP8调度和BF16组合)。

DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

具有纯RDMA的低延迟内核

针对延迟敏感型推理解码场景,DeepEP包括一组具有纯RDMA的低延迟内核,以最大限度地减少延迟。

该库还引入了一种基于hook的通信计算重叠方法,不占用任何SM资源。

DeepEP团队在H800上测试低延迟内核,每个内核都连接到CX7 InfiniBand 400 Gb/s RDMA 网卡(~50 GB/s 最大带宽)。

且遵循典型的DeepSeek-V3/R1生产设置(每批128个tokens,7168个隐藏,前8个专家,FP8调度和BF16组合)。

DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

暂不支持消费级显卡,建议使用最佳自动优化配置

在GitHub上,DeepSeek团队明确写出了关于DeepEP的使用方式,涵盖各种适配环境、配置要求等。

首先是DeepEP需要的软硬件环境版本:

  • Hopper GPUs(以后可能支持更多架构或设备)
  • Python 3.8及更高版本
  • CUDA 12.3及更高版本
  • PyTorch 2.1及更高版本
  • 用于节点内通信的NVLink
  • 用于节点内通信的RDMA网络

其次,使用DeepEP需要下载并安装团队修改后的NVSHMEM依赖项(有关说明,请参阅DeepSeek团队的NVSHMEM安装指南)。

然后,将 deep_ep 导入到Python项目中,就开始“尽情享受吧”!

至于网络配置方面,DeepEP已通过InfiniBand网络的全面测试。

但理论上,它也与基于融合以太网的RDMA(RoCE)兼容。

其中,InfiniBand通过虚拟通道(Virtual Lanes, VL)支持流量隔离。

为了防止不同类型流量之间的干扰,DeepEP图男队建议将工作负载隔离到不同的虚拟通道中,如下所示:

  • 使用普通内核的工作负载
  • 使用低延迟内核的工作负载
  • 其它工作负载

对于DeepEP,开发者可以通过设置 NVSHMEM_IB_SL 环境变量来控制虚拟通道分配。

值得注意的是,自适应路由是InfiniBand交换机提供的一项高级路由功能,可以在多个路径之间均匀分配流量。

目前,低延迟内核支持Adaptive Routing,而普通内核不支持(可能很快就会添加支持)。

为普通的节点间内核启用自适应路由,可能会导致死锁或数据损坏问题

对于低延迟内核,启用Adaptive routing可以完全消除路由冲突导致的网络拥塞,但也会带来额外的延迟。

DeepEP团队建议使用以下配置以获得最佳性能:

  • 在网络负载较重的环境中启用自适应路由
  • 在网络负载较轻的环境中使用静态路由

BTW,DeepEP已禁用拥塞控制(Congestion control),因为团队在生产环境中没有观察到明显的拥塞。

最后一点来自DeepEP团队的叮嘱——

为了获得极致性能,团队发现并使用了一条out-of-doc PTX指令ld.global.nc.L1::no_allocate.L2::256B 。

此指令将导致未定义的行为:使用非相干只读PTX修饰符 .nc 访问易失性GPU内存。

但是,正确性已经过测试,以保证 。L1::no_allocate 在 Hopper 架构上,性能会好得多。

如果您发现内核在某些其他平台上无法运行,您可以添加到DISABLE_AGGRESSIVE_PTX_INSTRS=1 setup.py并禁用此功能,或提交问题。

为了在集群上获得更好的性能,DeepSeek建议运行所有测试并使用最佳的自动优化配置。

因为默认配置在DeepSeek的内部集群上进行了优化~

One More Thing

DeepSeek为了本次开源周专门在GitHub上新开了一个库:

https://github.com/deepseek-ai/open-infra-index

根据这两天的发布,猜测本次开源周发布内容maybe均与AI Infra有关

不过一个不那么好的消息,DeepSeek的开源周更新时间,好像不太稳定。

昨天是上午9:34,今天是10:24,明天……

DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

于是乎,为了追踪DeepSeek碌碌向前的车轮,量子位诚邀大家一起第一时间上车(doge)。

扫码备注「DeepSeek-职业/姓名」加入群聊,一起追踪DeepSeek开源周!

DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定

DeepEP GitHub:

https://github.com/deepseek-ai/DeepEP

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...