不只是大模型，AI框架与AI编译器的发展趋势

2,086次阅读

大模型时代，AI框架与编译器都在朝着适配大模型的方向重构，比如MindSpore、飞桨等等框架，另外OpenAI开发的Triton编译器也开始支持英伟达最强芯片H100，同时支持分布式系统也将成为默认设置。但它们也有其自身的发展规律，近年来不断推陈出新，挑战旧模式，比如AI编译器就出现了块抽象、图调度等新型编译模式，以及应对原有的动态性问题。为推动AI框架与AI编译器技术发展与落地，DataFun将举办DataFunSummit2023大模型与AI基础软件架构峰会，设立主论坛、AI框架论坛、AI编译器论坛、大模型训练与推理论坛、MLOps与AI治理论坛、软硬协调/端侧推理论坛，邀请业内顶尖专家分享最新实践。

👇扫描下方海报二维码免费报名观看

不只是大模型，AI框架与AI编译器的发展趋势

▍主席团（按字母排序）

金雪锋华为昇思MindSpore首席架构师

个人介绍：金雪锋，昇思MindSpore首席架构师，华为2012实验室中央软件院架构与设计管理部部长，当前主要的方向MLSys，包括大规模机器学习系统、AI编译器、AI+科学计算系统等，之前曾先后担任华为的分布式数据库/大数据平台、电信基础软件平台的技术负责人，有20年系统软件设计和开发经验。

陶阳宇腾讯 TEG 机器学习平台部总监

个人介绍：陶阳宇，毕业于中科大电子专业，博士学历，15年机器学习、大数据、云计算相关领域经验，曾在微软MSRA、阿里云从事大规模分布式系统研发，现任腾讯TEG机器学习平台部总监，负责腾讯太极MLOps机器学习平台的研发，支持海量数据、万卡大规模GPU集群的模型训练、推理部署，研发的Angel系列AI框架AngelGraph、AngelRec、AngelPTM等支持了腾讯广告、视频推荐、金融风控、AIGC大模型等多个应用场景，大幅提升AI落地效率，降低资源成本。曾获中国电子学会科技进步奖特等奖，清华大学、北航研究生客座讲师，在NIPS/VLDB/SIGMOD等国际学术会议发表多篇论文。

于佃海百度飞桨平台总架构师

个人介绍：于佃海，飞桨（PaddlePaddle）平台总架构师，百度集团机器学习平台TOC++主席，CCF高级会员。2008年从北京大学毕业后加入百度，长期从事AI基础技术和平台研发工作。曾构建了百度第一个大规模分布式机器学习训练系统，最早将机器学习技术引入百度搜索排序，建设了百度最早的机器学习基础算法库和实验平台。作为百度深度学习技术最早一批研究人员，开创深度学习语义计算等技术方向，在深度学习大规模分布式训练、神经网络机器翻译、自然语言语义理解与交互等方向上取得多项突破性成果。参与多项国家重点研发计划课题研究。曾获中国电子学会科技进步一等奖、北京市科学技术进步奖一等奖、CCF杰出工程师奖。

不只是大模型，AI框架与AI编译器的发展趋势 扫码免费报名观看▍主论坛

于璠华为软件领域科学家、昇思MindSpore技术总经理、AI4Sci LAB主任

个人介绍：于璠博士，中国科学技术大学计算机博士毕业，华为工作14年，现任华为软件领域科学家、昇思MindSpore技术总经理、AI4Sci LAB 主任，获得中国软件协会卓越工程师、OSCAR 开源人物，获聘哈尔滨工业大学客座教授、西电客座教授，主持科技部2030人工智能重大专项，主导华为AI系统核心算法、云计算资源调度、SDN大规模路由等架构和算法的设计和落地，发表专利和论文40余篇。

🔥演讲题目：AI 框架业界趋势及 MindSpore 实践

演讲提纲：人工智能模型训练是一项需要高级技能的，专家的工作，高技术门槛、高开发成本、长部署周期等问题阻碍了全产业AI开发者生态的发展。为了助力开发者与产业更加从容地应对这一系统级挑战，新一代AI框架MindSpore专注于大模型高效训练推理、AI科学计算，降低了AI开发门槛。本次演讲与大家分享AI框架的挑战、MindSpore的解决思路、MindSpore的实践等内容，期待与大家进行一次思维的碰撞。

陶阳宇腾讯 TEG 机器学习平台部总监

个人介绍：陶阳宇，毕业于中科大电子专业，博士学历，15年机器学习、大数据、云计算相关领域经验，曾在微软MSRA、阿里云从事大规模分布式系统研发，现任腾讯TEG机器学习平台部总监，负责腾讯太极MLOps机器学习平台的研发，支持海量数据、万卡大规模GPU集群的模型训练、推理部署，研发的Angel系列AI框架AngelGraph、AngelRec、AngelPTM等支持了腾讯广告、视频推荐、金融风控、AIGC大模型等多个应用场景，大幅提升AI落地效率，降低资源成本。曾获中国电子学会科技进步奖特等奖，清华大学、北航研究生客座讲师，在NIPS/VLDB/SIGMOD等国际学术会议发表多篇论文。

🔥演讲题目：腾讯太极 LLMOps 大模型平台实践

演讲提纲：大语言模型技术正在飞速发展，从机器学习平台角度，如何管理好大模型研发应用整个生命周期至关重要，包括数据管理、资源管理、模型开发、训练评估、推理部署等方面，本次分享以腾讯太极LLMOps大模型平台实践为基础，探讨大模型场景，平台如何提高模型研发效率、降低资源成本。具体包括：

1. LLMOps基础简介

2. 太极大模型平台

3. 数据飞轮与管理

4. 模型训练与推理框架

5. 性能优化与成本

6. 大模型集群稳定性

🎁听众收益：

1. 如何通过框架性能优化，降低大模型30%成本？

2. 如何提高大模型千卡训练稳定性？

3. 大模型 LLMOps 平台如何建设？

胡晓光百度杰出架构师

个人介绍：胡晓光，百度杰出架构师，研究方向自然语言处理、深度学习框架、AI科学计算等。现负责飞桨训练框架核心技术研发，设计了飞桨2.0全新API体系；牵头研制飞桨高阶自动微分、深度学习编译器等技术，支持AI科学计算的创新应用；牵头研制了飞桨产业级开源模型库，助力飞桨位列中国深度学习平台市场综合份额第一。曾获国家科技进步二等奖1项，省部级科技进步一等奖3项。

🔥演讲题目：大模型时代的深度学习平台发展思考和飞桨实践

演讲提纲：大模型时代深度学习技术演进对深度学习平台提出了新的需求，本报告介绍深度学习平台的发展思考和飞桨开发实践，包括飞桨框架2.5版本的核心架构升级和大模型训练、部署、多硬件适配方面的工作。

🎁听众收益：

1. 大模型时代深度学习平台所面临的挑战

2. 深度学习平台的技术演进思路

3. 飞桨深度学习平台技术特色

扫码免费报名观看① AI框架论坛

出品人：刘童璇深度学习引擎专家

个人介绍：长期从事机器学习平台/深度学习引擎相关的研发工作，负责大型语言模型训练、推理和部署的优化，稀疏模型的训练和预测的优化，曾负责阿里大规模稀疏模型训练/预测框架 DeepRec。

尤洋新加坡国立大学校长青年教授、潞晨科技创始人兼董事长

个人介绍：尤洋，新加坡国立大学校长青年教授，加州大学伯克利分校计算机科学博士学位，导师是计算机科学部和 EECS 系的前任系主任 James Demmel 教授。尤洋的研究兴趣包括并行/分布式算法、高性能计算和机器学习。他当前研究的重点是扩展分布式系统或超级计算机上的深度神经网络训练。2017年，他的团队打破了ImageNet训练速度的世界纪录，并被NSF、ScienceDaily、Science NewsLine、i-programmer等科技媒体报道。2019年，他的团队打破了BERT训练速度的世界纪录。BERT 训练技术已被 Google、Microsoft、NVIDIA 等众多科技巨头使用。尤洋团队开发的 LARS 和 LAMB 优化器可在行业基准 MLPerf 中使用。他曾获得 IPDPS 2015 最佳论文奖（0.8%）、ICPP 2018 最佳论文奖（0.3%）、AAAI 2023 杰出论文奖（0.14%）、ACL 2023 杰出论文奖（0.8%）和 ACM/IEEE George 迈克尔高性能计算奖学金。他是Siebel学者，Lotfi A. Zadeh奖获得者。尤洋被加州大学伯克利分校提名为 ACM 博士论文奖（2020 年毕业的 81 名伯克利 EECS 博士生中有 2 名）。他还入选了《福布斯》亚洲 30 Under 30 榜单（2021 年），并荣获 IEEE CS TCHPC 早期职业研究人员高性能计算卓越奖。欲了解更多信息，请查看他的实验室主页：NUS HPC-AI Lab

🔥演讲题目：超大模型的高效训练和部署技术

🎁听众收益：

对于大型语言模型而言，更大的模型参数通常意味着更好的性能，这对当前GPU等AI加速器硬件的内存墙提出了挑战。分布式训练是最自然的解决方案，但实现分布式训练，尤其是模型并行性，通常需要计算机系统和架构方面的领域专业知识。对于人工智能研究人员来说，为其模型实施复杂的分布式训练解决方案仍然是一个挑战。

为了解决这个问题，我们引入了一个统一的并行训练系统，旨在无缝集成不同的并行化技术范式，包括数据并行、管道并行、多张量并行和序列并行。我们的系统旨在支持人工智能社区以与正常编写模型相同的方式编写分布式模型。这使他们能够专注于开发模型架构，并将分布式训练的关注点与开发过程分开。相比最先进的 GPT 模型训练分布式系统，我们的系统能够实现 2 倍的加速。

褚超群旷视科技 MegEngine 训练侧负责人

个人介绍：褚超群毕业于上海交通大学，主要研究方向为神经网络压缩，存算一体架构，AI 编译器等。现在是旷视深度学习框架 MegEngine 训练侧负责人，负责 MegEngine 训练侧的 AI 编译与性能优化等。

🔥演讲题目：MegEngine AI 编译与训练性能优化实践

演讲提纲：AI 编译技术被广泛应用于推理部署等场景以提升性能。但在训练阶段，因为其对动态性和灵活性截然不同的要求，使用这项技术仍然存在着诸多挑战。megengine 中尝试引入 Imperative VM 解决此类问题。这个分享将介绍 MegEngine 如何处理用户代码里的动态性，并和现有编译优化技术如 XLA 等相结合实现训练性能优化。

🎁听众收益：

1. 了解模型训练与推理时主要性能问题的异同

2. 了解在训练时使用 AI 编译解决性能问题的挑战

3. MegEngine 使用 AI 编译优化训练性能的技术实践

张志商汤科技研发工程师

个人介绍：硕士毕业于北京大学智能科学系，而后入职商汤科技从事软件研发工作。目前在高性能计算部门负责大模型推理基础框架(PPL.LLM)与神经网络量化框架(PPQ)研发。

🔥演讲题目：高性能 LLM 推理框架的设计与实现

演讲提纲：本次演讲将从推理层面分析大语言模型的性能瓶颈，并介绍大语言模型推理框架 PPL.LLM 的整体设计思路。PPL.LLM 推理框架基于一套自定义的算子规范，具有较高的灵活性并针对大模型推理进行的深入优化，并提供了 C++ 实现的高性能服务后端。结合高性能的算子实现、网络量化与服务端优化，PPL.LLM 能以数倍于 vllm 的性能完成推理任务，在本次演讲中我们将带您了解提升大语言模型推理性能的关键问题。

🎁听众收益：

1. LLM 推理的算子设计与性能分析

2. Serving 模块设计

3. 大语言模型推理中的模型量化

4. 适用于大语言模型推理的硬件选型扫码免费报名观看

② AI编译器论坛

出品人：薛继龙微软亚洲研究院高级研究员

个人介绍：薛继龙博士，微软亚洲研究院系统组高级研究员和研究经理，主要研究方向为构建和优化基于新型加速器的高性能计算系统，目前主要负责人工智能编译框架方向的研究，相关成果已发表在OSDI，NSDI, EuroSys等国际会议上。

马凌霄微软亚洲研究院高级研究员

个人介绍：马凌霄，微软亚洲研究院智能云端系统组高级研究员，2020年博士毕业于北京大学，目前主要从事深度学习编译框架方面的研究工作，多项研究成果已发表在OSDI，SOSP，USENIX ATC等国际会议上。

🔥演讲题目：基于块（Tile）抽象的高效深度学习编译系统

演讲提纲：在人工智能技术快速发展和广泛应用的今天，人工智能应用需要高效部署在多样化的计算机硬件架构上。然而，随着新模型和新硬件的快速出现和迭代，业界对高效、快速的模型部署有了更高的要求。深度学习编译器成为了一种新的连接模型计算表达和底层硬件执行的途径。然而，如何在不同硬件上高效支持快速发展的人工智能应用仍然存在很多挑战。本报告将介绍我们基于统一的块（Tile）抽象，在深度学习编译领域的一系列探索性工作，包括提升硬件并行利用率（Rammer@OSDI’20）、提高编译效率（Roller@OSDI’22）、优化全局访存效率（Welder@OSDI’23）、优化控制流的高效执行（Cocktailer@OSDI’23）。我们希望通过设计一套统一编译抽象并基于此抽象构建编译系统，从而为深度学习软件和硬件技术提供更加通用和高效的桥梁。

🎁听众收益：

1. 一套基于块（Tile）抽象的高效深度学习编译系统

2. 在深度学习应用场景，如何通过块（Tile）抽象提升硬件并行利用率

3. 如何通过块（Tile）抽象提升深度学习编译效率

4. 如何通过块（Tile）抽象优化深度学习应用的全局访存效率

5. 如何通过块（Tile）抽象统一调度和优化深度学习应用的数据流和控制流

淡孝强独立学者

个人介绍：2012年毕业于国防科大，同年加入华为编译器团队，曾是基带芯片自研编译器团队核心；17年开始参与昇腾AI编译孵化工作，是TE（后改名TBE），AKG，图算融合项目的主创和架构师；20年加入希姆计算任Toolchain总监，负责AI编译器研发，所带项目TensorTurbo泛化支持160+模型，性能持平A10，核心技术所写论文被OSDI 2023接收。

🔥演讲题目：Effectively Scheduling Computational Graphs of Deep Neural Networks toward Their Domain-Speciﬁc Accelerators

演讲提纲：AI芯片的编译技术路线一直深受Nvidia GPU的kernel by kernel模式（有大量的off core的数据搬移，对DRAM的带宽要求很高，不能做到整网性能最优）影响，该演讲将介绍完全不同的一种技术路线：图调度技术。充分利用模型的数据分布不均的特点，以及AI芯片的硬件特点，尽可能的把模型运行的中间数据都驻留在片上，降低数据搬移，降低对带宽的需求。演讲将从现有技术的问题展开，将阐述图调度技术如何解决当前问题，在已有AI DSA硬件上相比kernel by kernel模型有11倍性能提升。

🎁听众收益：

1. 了解当前AI编译面临的主要挑战；

2. 了解图调度技术

3. 重新思考基于图调度的 DSA 架构设计

冯思远上海交通大学博士研究生

个人介绍：冯思远是上海交通大学致远荣誉计划博士生的学生，本科毕业自上海交通大学 ACM班。目前是Apache TVM的PMC member、MLC社区成员。

🔥演讲题目：利用机器学习编译技术部署大模型

演讲提纲：

1. 机器学习编译 (MLC) 技术

2. Apache TVM Unity 简介

3. 利用MLC-LLM部署大模型

4. 总结

🎁听众收益：

1. 大模型部署中遇到的挑战

2. 机器学习编译 (MLC) 技术在大模型场景中的作用

3. MLC-LLM 的技术细节

王彪 NVIDIA Architect,Sr

个人介绍：王彪，硕士毕业于中国科学院计算技术研究所。专注于高性能计算和人工智能基础软件领域，包括多平台性能优化，AI 训练推理框架，AI 编译器等。现在在 NVIDIA 从事 AI 编译器相关工作。

🔥演讲题目：Triton on Hopper

演讲提纲：作为一个领域专用编程语言和编译器，OpenAI Triton 在 kernel 开发效率，编程灵活性和性能三者之间找到了一个平衡点。和现有的 AI 编译器相比，OpenAI Triton 更加小巧灵活。OpenAI Triton 的行业认可度越来越高，已经在包括 PyTorch 在内的多个项目中被使用。但是，Triton 目前最高支持 NVIDIA Ampere 架构，性能更好的 Hopper 架构暂未支持。本次分享会介绍 OpenAI Triton 支持 NVIDIA Hopper 架构的具体做法，以及 Triton 前端 API 的变化。添加 Hopper 支持后的 Triton 在 H100 上半精度矩阵乘可以达到 cuBLAS 性能的 70% 以上，相比于 A100 上的 cuBLAS 则可获得 1.4x 加速比。

主要内容包括：

1. Background

2. API changes and How to use

3. IR Structure and Lowering Path

4. Performance

5. Plans for the future

🎁听众收益：

1. OpenAI Triton 支持 Hopper 架构之后的 API 变化

2. OpenAI Triton支持 Hopper 架构的技术路径

3. Triton on Hopper 当前的性能和后续计划

扫码免费报名观看

③ 大模型训练与推理论坛

出品人：涂威威第四范式副总裁、主任科学家

个人介绍：涂威威，第四范式副总裁、主任科学家。涂威威在大规模分布式机器学习系统架构、机器学习算法研究、决策优化应用、隐私计算等方向有十余年的行业落地经验，相关成果被广泛应用于互联网、金融、零售、能源、制造、医疗等多个行业。涂威威在AAAI、IJCAI、KDD、ICML、NeurIPS、ICLR等会议发表多篇论文。涂威威在NeurIPS、KDD、IJCAI等会议组织多场机器学习算法竞赛及工作会议，并担任会议比赛主席、工作会议主席等。涂威威也是TPAMI首个AutoML特刊创办人之一，客座编辑。涂威威还担任国际NPO组织ChaLearn秘书长。

曾冠奇特赛发创始人CEO

个人介绍：硕士毕业于武汉大学国家网络安全学院，师从教授委员会主任王丽娜教授。2015年阿里大数据竞赛15/4868，2016年上海bot大赛排面自动识别初复赛第一名。先后任职平安科技（世界500强）资深工程师（2012-2014）；国家某部委841院多媒体深度学习负责人-2016；便利蜂智能零售实验室team leader。2017-2018；敦煌网算法总监 2018-2020；蚂蚁集团数字金融线数金搜索算法负责人2020-2022；CSDN 学院人工智能讲师；创新工场AI chanllege 讲师；之江实验室学术兼职专家；浙江万里学院行业实践硕士生导师；IEEE SMC2020 Adaptive Context Learning Network for Crowd Counting 第一通讯作者；ACM SIGIR2022CTnoCVR: A Novelty Auxiliary Task Making the Lower-CTR-Higher-CVR Upper 第一通讯作者。

🔥演讲题目：特赛发大模型训练推理实战

演讲提纲：

1. 如何构建一个有力的 LLM 训练套装

2. 如何构建一个准实时的推理服务

🎁听众收益：

1. 多机多卡并行分布式训练为什么不可取

2. 初创 LLM 企业如何搭建有力的训练套装

3. LLM 训练架构选型和优化

4. 准实时推理服务的搭建

5. 常用的 LLM 软件架构设计小技巧

吕冬冬云知声智算平台架构师

个人介绍：负责云知声大规模分布式机器学习平台架构设计与新功能演进，负责深度学习算法应用优化与大模型加速。工作领域涉及大规模集群搭建、集群资源调度、高性能计算、分布式文件存储、分布式缓存等。是 CNCF Fluid 开源项目 Committer,获得过 2021 年厦门市科学技术奖一等奖，福建省科学技术将二等奖。

🔥演讲题目：云知声 Atlas 一站式高性能大模型智算平台实践

演讲提纲：大模型的孕育需要众多关键工程环节，包括原始语料处理、数据大规模去重、分布式多机多卡预训练、模型微调与模型服务发布等。云知声在今年初发布了 “山海” 大模型，本次分享从平台的角度讲解云知声 Atlas 平台是如何支持 “山海” 孕育过程中各个关键环节,探索云知声在应对大模型技术趋势所做的工作以及如何提高平台的效率与稳定性。具体包括:

1. 大模型训练简介

2. Atlas 算力平台介绍

3. 大规模数据预处理集群建设

4. 训练平台建设及性能优化

5. 分布式训练稳定性保障

🎁听众收益：

1. 了解大模型训练平台的搭建

2. 了解如何从计算、网络、存储与训练框架的角度提高训练效率

3. 如何自动化监测大模型训练以及如何提高训练稳定性

扫码免费报名观看

⑤ 端侧推理论坛

石宪 vivo AI 高性能计算工程师

个人介绍：vivo AI 高性能计算工程师。毕业于西安电子科技大学，主要负责 vivo 移动端计算加速平台 VCAP 的研发，助力 AI 算法在移动端快速部署、高效运行。

🔥演讲题目：Transformer 业务的端侧落地及优化分享

演讲提纲：

1. transformer 基础及端侧业务落地难点

2. transformer 业务场景的实践与优化

🎁听众收益：

1. 帮助听众了解 transformer 结构及端侧落地的难点。

2. 帮助听众了解 VCAP 如何在性能、内存、体积等多个方面实现 transformer 的高效落地。

王召德淘天集团大淘宝技术技术专家

个人介绍：中国科学院计算技术研究所硕士，任职于阿里巴巴淘系技术MNN团队负责MNN框架架构设计，性能优化等工作。在AI框架架构设计与优化，AI模型编译与代码生成，多后端算子优化，多设备模型部署等领域有丰富经验。

🔥演讲题目：MNN大模型端上部署的挑战与思考

🎁听众收益：

1. MNN推理引擎概要

2. 大模型端侧部署流程

3. 大模型端侧部署技术挑战与实践

5. 总结与展望

听众收益：

1. 移动端推理框架MNN的了解

2. LLM模型部署端侧部署的流程

3. 端侧推理框架LLM部署的实践经验

扫码免费报名观看

更多议题持续更新中……

不只是大模型，AI框架与AI编译器的发展趋势

② AI编译器论坛

③ 大模型训练与推理论坛

⑤ 端侧推理论坛

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

2023 年 9 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

2023 年 9 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30