社区供稿 | 好未来开源中英文数学竞赛数据集 TAL-SCQ5K

809次阅读
没有评论

不久前,好未来正式发布数学领域千亿级大模型MathGPT。MathGPT可以实现题目计算、讲解、问答等多任务持续训练和有监督微调,其数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问。

近日,好未来在GitHub 、Hugging Face社区开源了MathGPT模型训练测试数据集——TAL-SCQ5K-EN和TAL-SCQ5K-CN

GitHub 开源地址:
https://github.com/math-eval/TAL-SCQ5KHugging Face 开源地址:
https://huggingface.co/datasets/math-eval/TAL-SCQ5K社区供稿 | 好未来开源中英文数学竞赛数据集 TAL-SCQ5K

数据集介绍

TAL-SCQ5K-EN是由好未来创建的高质量英语数学竞赛数据集,包含5K道英语数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目采用多项选择题形式,涵盖了小学数学领域的各个主题。


此外,为了方便CoT训练,提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。

TAL-SCQ5K-CN则是一组高质量中文数学竞赛数据集,包含5K道中文数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目也采用多项选择题形式,但涵盖了小学、初中和高中阶段数学领域的各个主题。同样,这组数据集也提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。


TAL-SCQ5K-EN/CN 均是来源于好未来二十年来积累的海量题库中高质量中英文数学竞赛真题。涉及竞赛包含中国“迎春杯”数学竞赛、中国“希望”数学邀请赛杯和美国数学竞赛AMC等海内外知名数学领域代表性竞赛,题目真实可靠且格式经过精心处理。除了上面提到的提供了详细解题步骤外,还提供了题目难度系数,题目来源竞赛和题目涉及到的知识点链条等多维度详实的题目相关信息,有助于使用者进一步组织和充分利用这两个数据集中包含的全部信息。

社区供稿 | 好未来开源中英文数学竞赛数据集 TAL-SCQ5K

数据实例

社区供稿 | 好未来开源中英文数学竞赛数据集 TAL-SCQ5K

社区供稿 | 好未来开源中英文数学竞赛数据集 TAL-SCQ5K

数据字段

“dataset_name”: 该数据集名称的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源数据集名称,仅供TAL教育集团内部使用,请忽略。

“dataset_version”: 该数据集版本的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源数据集版本,仅供TAL教育集团内部使用,请忽略。

“qid”: 该问题在来源数据集中的本地ID的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源问题,仅供TAL教育集团内部使用,请忽略。

“queId”: 该问题的全局ID的标识,仅供TAL教育集团内部使用,请忽略。

“competition_source_list”: 该问题所出现的数学竞赛的标识,如果已记录。

“difficulty”: 问题的难度级别,取值范围为0到4。

“qtype”: 问题类型,取值为“single_choice”,表示该数据集中的所有问题都是多项选择题,且有唯一的正确答案。

“problem”: 描述数学竞赛问题的字符串。

“answer_option_list”: 可供选择的答案选项。

“knowledge_point_routes”: 从粗粒度到细粒度的知识点链条。

“answer_analysis”: 问题的逐步答案分析,有助于CoT训练。

“answer_value”: 正确答案选项的值。

社区供稿 | 好未来开源中英文数学竞赛数据集 TAL-SCQ5K

如何使用

以上每个数据集都位于一个单独的子目录中。要加载单个子集,请使用load_dataset()函数的data_dir参数,如下所示:

社区供稿 | 好未来开源中英文数学竞赛数据集 TAL-SCQ5K

本文转载自社区供稿内容,不代表官方立场。了解更多,请关注微信公众号”智慧教育AI开放创新平台”:

如果你有好的文章希望通过我们的平台分享给更多人,请通过这个链接与我们联系: 

https://hf.link/tougao

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy