面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

1,423次阅读
没有评论

今天是2023年12月29日,星期五,北京,天气晴,今天是2023年最后一个打工日。

最近做大模型数学垂直能力上的工作,很有趣,而与模型最为相关的,实际上是数学相关的训练数据集。

因此,我们来看看数学的相关数据集的事儿,其中涉及到一个mathpile的工作,其基于现有的文本训练数据集,进行清洗转换去污染等操作,得到了一个9.5B token的数据集,可供申请使用。

而与其相对应的微调数据,当前也有包括school_math_0.25M等多个数学解题微调数据。

本文对这些工作进行梳理,供大家一起参考。

一、数学预训练数据集:MathPile

文章《Generative AI for Math: Part I MATHPILE: A Billion-Token-Scale Pretraining Corpus for Math 》(https://arxiv.org/pdf/2312.17120.pdf)中提出了MathPile

1、现有的其他数学数据集

数据集主要有proofpile,AMPS等,具体对比信息如下:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

2、MathPile数据集

从不同来源收集数据(约520B个token),然后经过严格的处理过程,获得了一个以数学为中心的语料库,包含9.5B的token,如下所示:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

数据集地址:https://huggingface.co/datasets/GAIR/MathPile/tree/main

3、数据集的分布

如下所示,分别从textbooks,wikipedia,proofwiki,commoncrwall,stackexchange,arxiv中进行收集,构成如下:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

当然,也可以对构成的数据集进行长度的分布,如下所示:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

4、数据获取

数据放在huggingface,但需要提交申请才能下载,感兴趣并需要的可以查看:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

二、数据的微调数据集

1、school_math_0.25M

school_math_0.25M共包括25万条数学题,样式如下:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

地址:https://huggingface.co/datasets/BelleGroup/school_math_0.25M/resolve/main/school_math_0.25M.json

2、腾讯人工智能实验室发布网上爬取的数学问题APE210k

地址:https://github.com/Chenny0808/ape210k

3、猿辅导 AI Lab开源小学应用题Math23K

地址:https://github.com/SCNU203/Math23k/tree/main

4、grade school math

OpenAI的高中数学题有改造成指令样本有2-8步推理过程

地址:https://huggingface.co/datasets/qwedsacf/grade-school-math-instructions

5、math_qa数据集

有推理过程和多项选择。

地址:https://huggingface.co/datasets/math_qa/

6、AMC竞赛数学题

地址:https://huggingface.co/datasets/competition_math

7、线性代数等纯数学计算题

地址:https://huggingface.co/datasets/math_dataset

总结

本文主要介绍了面向数学的训练数据和微调训练数据,这对提升基础模型数学运算能力有直接帮助,感兴趣的可以对这些数据进行研究,会有更多收获。

参考文献

1、https://arxiv.org/pdf/2312.17120.pdf

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

​​​ 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 量子位的朋友们 2025-12-20 13:06:52 来源:量...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板? 量子位的朋友们 2025-12-20 20:49:32 来源:量子位 谁能带来更...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板? 量子位的朋友们 2025-12-20 22:09:18 来源:量子位 2025年...
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...