今天是2023年12月29日,星期五,北京,天气晴,今天是2023年最后一个打工日。
最近做大模型数学垂直能力上的工作,很有趣,而与模型最为相关的,实际上是数学相关的训练数据集。
因此,我们来看看数学的相关数据集的事儿,其中涉及到一个mathpile的工作,其基于现有的文本训练数据集,进行清洗转换去污染等操作,得到了一个9.5B token的数据集,可供申请使用。
而与其相对应的微调数据,当前也有包括school_math_0.25M等多个数学解题微调数据。
本文对这些工作进行梳理,供大家一起参考。
一、数学预训练数据集:MathPile
文章《Generative AI for Math: Part I MATHPILE: A Billion-Token-Scale Pretraining Corpus for Math 》(https://arxiv.org/pdf/2312.17120.pdf)中提出了MathPile
1、现有的其他数学数据集
数据集主要有proofpile,AMPS等,具体对比信息如下:
2、MathPile数据集
从不同来源收集数据(约520B个token),然后经过严格的处理过程,获得了一个以数学为中心的语料库,包含9.5B的token,如下所示:
数据集地址:https://huggingface.co/datasets/GAIR/MathPile/tree/main
3、数据集的分布
如下所示,分别从textbooks,wikipedia,proofwiki,commoncrwall,stackexchange,arxiv中进行收集,构成如下:
当然,也可以对构成的数据集进行长度的分布,如下所示:
4、数据获取
数据放在huggingface,但需要提交申请才能下载,感兴趣并需要的可以查看:
二、数据的微调数据集
1、school_math_0.25M
school_math_0.25M共包括25万条数学题,样式如下:
地址:https://huggingface.co/datasets/BelleGroup/school_math_0.25M/resolve/main/school_math_0.25M.json
2、腾讯人工智能实验室发布网上爬取的数学问题APE210k
地址:https://github.com/Chenny0808/ape210k
3、猿辅导 AI Lab开源小学应用题Math23K
地址:https://github.com/SCNU203/Math23k/tree/main
4、grade school math
把OpenAI的高中数学题有改造成指令样本有2-8步推理过程
地址:https://huggingface.co/datasets/qwedsacf/grade-school-math-instructions
5、math_qa数据集
有推理过程和多项选择。
地址:https://huggingface.co/datasets/math_qa/
6、AMC竞赛数学题
地址:https://huggingface.co/datasets/competition_math
7、线性代数等纯数学计算题
地址:https://huggingface.co/datasets/math_dataset
总结
本文主要介绍了面向数学的训练数据和微调训练数据,这对提升基础模型数学运算能力有直接帮助,感兴趣的可以对这些数据进行研究,会有更多收获。
参考文献
1、https://arxiv.org/pdf/2312.17120.pdf
关于我们
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。