Google发布的大规模多语言数据集MADLAD-400
Sneha Kudugunta, Isaac Caswell, Biao Zhang, Xavier Garcia, Christopher A. Choquette-Choo, Katherine Lee, Derrick Xin, Aditya Kusupati, Romi Stella, Ankur Bapna, Orhan Firat
推出MADLAD-400,一个涵盖419种语言、包含3万亿词汇的单语数据集,通过从CommonCrawl中挖掘获得。手工审核了原始的5万亿词汇初步数据集,删除了噪声和不良内容,在此过程中删除了79种语言。
应用了过滤器来处理误渲染文字、色情内容、模板文本等问题。对使用virama字符和Zawgyi编码的语言做了特殊处理。
论文地址:https://arxiv.org/abs/2309.04662
使用MADLAD-400和其他平行数据训练了高达107亿参数的多语言机器翻译模型,以验证该数据集的有效性。模型的性能与更大模型相媲美。
训练了一个80亿参数的语言模型,在少样本翻译任务上进行了评估。
对模型的记忆和过拟合进行了分析。引入了“Canaries”以便于进一步研究这些问题。
阐明了精心创建大规模多语言数据集的迭代过程,并证明了它在训练高性能模型方面的效用,同时也突出了需要改进的领域。MADLAD-400的公开发布有望推动更包容的自然语言处理研究。
GitHub: github.com/google-research/google-research/tree/master/madlad_400