DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

371次阅读
没有评论

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

DeepSeek v3.2隐藏菜单

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek v3.2有一个新改动,在论文里完全没提,只在官方公告中出现一次,却引起墙裂关注。

开源TileLang版本算子,其受关注程度甚至超过新稀疏注意力机制DSA,从画线转发的数量就可以看出来。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

海外社区也注意到DeepSeek使用了它而不是OpenAI开发的Triton语言。

有接触过的开发者感叹TileLang是一种非常优雅的语言,只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

那么什么是TileLang,又为何引人瞩目?

首先,TileLang是一种专门用来开发GPU内核的领域专用语言,性能上可以对标英伟达CUDA,DeepSeek官方推荐使用此版本做实验,在方便调试和快速迭代上有优势。

更重要的是,TileLang与国产算力生态适配,连华为昇腾都要在第一时间公告对TileLang的支持。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

在几周前的华为全联接大会2025的开发者日上,TileLang团队成员董宇骐就介绍了TileLang实现FlashAttention算子开发,代码量从500+行减少至80行,并保持了与官方版本持平的性能。

此外TileLang团队成员王磊沐曦集成电路的高级总监董兆华也在同一个圆桌沙龙上出现过,讨论了沐曦GPU与TileLang的适配。

DeepSeek为什么选择TileLang

DeepSeek与TileLang第一次同框亮相,其实是在6月的北京智元大会。

在DeepSeek实习过的北大博士袁境阳,在报告中就提到“TileLang的算子实现会更快一点”。

TileLang的发起人之一,北大博士研究生王磊当时还专门发帖感谢DeepSeek尝试他们的语言。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

TileLang由北大团队主导开发,核心人物除了王磊、董宇骐,还有北大计算机学院的副研究员、博士生导师杨智

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

2025年1月,TileLang在GitHub上正式开源,至今已获得1.9k标星。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

简单来说,Tile语言 ( tile-lang ) 是一种简洁的领域专用语言,旨在简化高性能 GPU/CPU 内核的开发。tile-lang采用Python式语法,并在TVM之上构建底层编译器基础架构,使开发者能够专注于提高生产力,而无需牺牲实现最佳性能所需的底层优化。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

王磊曾在7月HyperAI超神经主办的Meet AI Compiler技术沙龙分享TileLang的核心设计理念:

将调度空间(包括线程绑定、内存布局、张量化和流水线等)与数据流解耦,并将其封装为一组可自定义的注解和原语。这种方法允许用户专注于内核的数据流本身,而将大部分优化工作交给编译器完成。

TileLang将“Tile”作为编程模型的核心概念,通过显式的Tile抽象,让开发者能够直观地控制数据在全局内存、共享内存和寄存器之间的流动。

TileLang提供了三个不同层次的编程接口,满足不同水平开发者的需求。

初学者可以使用硬件无关的高层接口,专注于算法逻辑而不必关心底层细节。

有经验的开发者可以使用ile Library,这里包含了各种针对不同硬件架构优化过的预定义操作。

对于追求极致性能的专家用户,TileLang还提供了线程原语级别的控制,允许他们直接操作线程同步、内存合并等底层特性。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

DeepSeek显然就属于追求极致性能的专家用户了,根据v3.2公告的说法,在早期DeepSeek团队使用TileLang快速开发原型,之后用更底层的方法进一步优化性能。

v3.2论文中提到在内核层面共享k-v提升计算效率,让DSA的闪电索引器机制(lightning indexer)运行速度远超传统实现。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

在TileLang的文档中也有相关的技术介绍,在计算过程中缓存中间数据,比全局内存快得多。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

TileLang与DeepSeek双向奔赴

更早之前,在DeepSeek连续一周发布开源代码库的第一天,王磊就曾向DeepSeek团队推荐TileLang语言。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

后来TileLang也以DeepSeek在这天发布的FlashMLA内核作为评测基准,在H100上的MLA解码速度,TileLang编写的内核做到与FlashMLA相当。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

在最新的DeepSeek v3.2发布之后,王磊也发帖致敬DeepSeek敢于使用一门新的编程语言来开发核心产品

并且DeepSeek v3.2也验证了TileLang确实可以用来训练模型。

DeepSeek突然拥抱国产GPU语言!对标CUDA替代Triton,华为Day0适配

DeepSeek V3.2技术报告:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang:
https://github.com/tile-ai/tilelang

参考链接:
[1]https://x.com/Lei_Wang_1999/status/1932331703747698786
[2]https://x.com/nathancgy4/status/1972613835598299245
[3]https://bbs.pku.edu.cn/v2/post-read-single.php?bid=322&postid=28065519
[4]https://hub.baai.ac.cn/view/46173

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 9 月
1234567
891011121314
15161718192021
22232425262728
2930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...