导 读
PKU-DAIR课题组4篇论文
入选数据库顶级会议VLDB 2023
数据库领域顶级会议VLDB 2023于2023年8月29日到9月1日在加拿大温哥华举行。在VLDB 2023上,北京大学计算机学院PKU-DAIR课题组共有4篇高水平论文入选。VLDB 会议全称 International Conference on Very Large Data Bases,是数据库领域历史悠久的三大顶级会议 (SIGMOD、VLDB、ICDE) 之一,每届会议集中展示了当前数据库研究的前沿方向、工业界的最新技术和各国的研发水平,吸引了全球顶级研究机构投稿。
课题组本次被VLDB录用了4篇论文,研究成果涵盖了多个领域,包括大模型训练优化、自动化超参数调优等。
以下是论文简要内容介绍:
01
Angel-PTM: 一个部署在腾讯的经济高效可扩展的大规模预训练系统
近年来,大规模预训练模型取得了前所未有的成就。腾讯公司的多款产品和服务,如微信、QQ和腾讯广告,已经广泛应用这些先进的预训练模型以提升用户体验和服务质量。文章Angel-PTM: A Scalable and Economical Large-scale Pre-training System in Tencent提出了Angel-PTM,一个专为大模型预训练而精心构建的工业级深度学习系统,可以利用GPU服务器中的多层存储高效地训练超大规模的模型。Angel-PTM 的关键设计在于其基于Page抽象的细粒度内存管理和一个统一视角的训练调度器,该调度器高效地协调了计算、CPU与GPU之间的数据传输以及GPU间的通信。此外,Angel-PTM通过使用SSD存储来支持超大规模模型的训练,并提出了无锁更新机制以缓解SSD I/O带宽瓶颈的问题。实验结果表明,相比现有系统, Angel-PTM在相同GPU资源下支持更大的模型训练(提升114.8%),且训练吞吐提升了88.9%。此外,我们还对AngelPTM在千卡A100 GPUs训练GPT3-175B和T5-MoE-1.2T模型的性能进行了测试,从而进一步验证了其出色的的可扩展性。
该论文第一作者为计算机学院2019级博士聂小楠(导师崔斌教授),通讯作者为崔斌教授和2018级博士符芳诚,合作作者包括北京大学的苗旭鹏,腾讯公司的刘毅、薛金宝、焦点和陶阳宇。
02
SDPipe:一种半去中心化的异构感知流水并行训练框架
随着模型规模和数据体量的增长,流水并行作为一种常见的模型并行方法被广泛应用于各种分布式训练场景。然而,工业界的大多数大模型训练案例都是基于理想的同构集群。实际上,真实的GPU集群环境往往会伴随着动态的异构特性,造成大量的模型同步开销。现有方案中,无论是中心化的参数服务器,还是去中心化的集合通信原语,都面临着一定的性能瓶颈。文章SDPipe: A Semi-Decentralized Framework for Heterogeneity-aware Pipeline-parallel Training提出了一种半去中心化的异构感知流水并行训练框架。该工作将需要密集通信的模型同步操作以去中心化的方式完成,实现高效同步,并且以中心化的方式调度节点通信组,实现对同步模式的灵活动态调整。SDPipe通过细粒度的跨流水线局部同步操作,替代了传统去中心化方案中的全局规约操作,并且通过同步图的全局约束,能够在保证模型收敛的同时提高分布式训练的通信效率。实验结果表明,SDPipe在真实异构集群环境下,可以显著超越现有方法的性能,并且具备较好的自适应能力和可扩展性。
该论文第一作者为计算机学院2017级博士苗旭鹏(导师崔斌教授,现CMU博士后),通讯作者为崔斌教授,合作作者包括石屹宁、杨智副研究员、Zhihao Jia(Carnegie Mellon University)。
03
Galvatron:
面向大规模Transformer模型的自动并行训练框架
基于Transformer的大规模预训练模型已经成为了当前基础模型的核心架构,这类稠密大模型拥有着动辄数十亿、百亿甚至万亿规模的参数量,面临高昂的计算、存储、以及通信开销,也为AI基础设施带来了巨大的挑战。现有的并行训练工具(如Megatron、DeepSpeed等)提供了一些基础并行策略的支持,但仅靠这些工具进行训练往往会造成严重的资源利用效率低下的问题,常常需要依赖系统专家经验进行反复调试甚至二次开发,以满足性能的需求。文章Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism提出了一套面向大规模Transformer模型的自动并行训练框架。相比于现有工作,该工作主要有三方面优势:1)可以支持更多的并行维度,并且具备面对差异化的模型结构和不同集群硬件条件下的自适应调优能力;2)面对庞大的搜索空间,设计了一套基于决策树剪枝和动态规划的智能优化算法,实现高效的分布式执行计划优化;3)结合理论建模与实验测量的优势,实现精确的内存、计算、通信开销估计,保证自动并行优化结果的准确性。Galvatron兼容PyTorch生态,用户使用友好,只需添加数行代码,就可以轻松完成大模型自动并行训练的整个流程,在多个常见Transformer模型场景下,分布式训练性能远超DeepSpeed、Magatron等现有系统。
该论文第一作者为计算机学院2017级博士苗旭鹏(导师崔斌教授,现CMU博士后),通讯作者为崔斌教授,合作作者包括王驭捷、姜友和、石淳安、聂小楠、张海林。
04
Online-Tune: 通用高效的Spark在线参数调优框架
分布式数据分析系统Spark广泛应用于企业处理大规模数据,而参数调优对Spark中的任务执行性能有重要影响。传统的自动参数调优方法存在功能有限、高开销、搜索低效等问题。文章Towards General and Efficient Online Tuning for Spark提出了一个新的通用且高效的Spark参数调优框架Online-Tune。Online-Tune引入通用调优目标,并以贝叶斯优化为基础,支持多目标带约束复杂问题求解;在周期性任务的实际执行过程中执行在线参数调优,避免额外开销,并提出了一个安全采集函数,以确保在线调优的性能稳定性;提出自适应子空间生成、近似梯度下降、迁移学习三种方法,进一步加速调优过程。实验结果表明,Online-Tune在Benchmark和业界实际任务上的优化性能均超过现有方法,具有更快的收敛速度和更好的安全性保证。
该论文第一作者为计算机学院2017级博士黎洋(导师崔斌教授,现腾讯高级研究员),作者包括姜淮钧、沈彧、崔斌教授(通讯作者)等。
END
欢迎关注本公众号,帮助您更好地了解北京大学数据与智能实验室(PKU-DAIR),第一时间了解PKU-DAIR实验室的最新成果!
实验室简介
北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文100余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。