华为诺亚实验室|万亿参数级别NLP模型的轻量化系统

1,518次阅读
没有评论

华为诺亚实验室|万亿参数级别NLP模型的轻量化系统

大语言模型的推进显著提升了自然语言理解、生成、推理等多项NLP研究。在本文中,来自华为诺亚试验和和分布式软件实验室的研究人员提出了名为PanGu-Σ的万亿级别模型。该模型的训练基于分布式Ascend 910AI计算芯片和MindSpore代码框架,总参数量高达1.085T。

基于这一模型,作者进一步提出了Random Routed Experts(RRE)和Expert Computation and Storage Separation策略以实现参数稀疏化。结果表明上述算法能够提升6.3倍训练速度,并允许3290亿Token作为输入。实验表明,PanGu-Σ能够在多项中文NLP研究中取得一流性能,并可在问答、翻译等多项应用上进行迁移和优化。

论文地址:https://arxiv.org/pdf/2303.10845.pdf

作者:Xiaozhe RenPingyi ZhouXinfan MengXinjing HuangYadao WangWeichao WangPengfei LiXiaoda ZhangAlexander PodolskiyGrigory ArshinovAndrey BoutIrina PiontkovskayaJiansheng WeiXin JiangTeng SuQun LiuJun Yao

整体框架

华为诺亚实验室|万亿参数级别NLP模型的轻量化系统

Random Routed Experts

华为诺亚实验室|万亿参数级别NLP模型的轻量化系统

Expert Computation and Storage Separation

华为诺亚实验室|万亿参数级别NLP模型的轻量化系统

实验

华为诺亚实验室|万亿参数级别NLP模型的轻量化系统

 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy