近日,好未来在GitHub 、Hugging Face社区开源了MathGPT模型训练测试数据集——TAL-SCQ5K-EN和TAL-SCQ5K-CN。
GitHub 开源地址:
https://github.com/math-eval/TAL-SCQ5KHugging Face 开源地址:
https://huggingface.co/datasets/math-eval/TAL-SCQ5K
数据集介绍
TAL-SCQ5K-EN是由好未来创建的高质量英语数学竞赛数据集,包含5K道英语数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目采用多项选择题形式,涵盖了小学数学领域的各个主题。
此外,为了方便CoT训练,提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。
TAL-SCQ5K-CN则是一组高质量中文数学竞赛数据集,包含5K道中文数学竞赛题目(3K道用于训练,2K道用于测试)。这些题目也采用多项选择题形式,但涵盖了小学、初中和高中阶段数学领域的各个主题。同样,这组数据集也提供了详细的解题步骤,并且所有题目中的数学表达式均以标准文本模式的Latex格式呈现。
TAL-SCQ5K-EN/CN 均是来源于好未来二十年来积累的海量题库中高质量中英文数学竞赛真题。涉及竞赛包含中国“迎春杯”数学竞赛、中国“希望”数学邀请赛杯和美国数学竞赛AMC等海内外知名数学领域代表性竞赛,题目真实可靠且格式经过精心处理。除了上面提到的提供了详细解题步骤外,还提供了题目难度系数,题目来源竞赛和题目涉及到的知识点链条等多维度详实的题目相关信息,有助于使用者进一步组织和充分利用这两个数据集中包含的全部信息。
数据实例
数据字段
“dataset_name”: 该数据集名称的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源数据集名称,仅供TAL教育集团内部使用,请忽略。
“dataset_version”: 该数据集版本的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源数据集版本,仅供TAL教育集团内部使用,请忽略。
“qid”: 该问题在来源数据集中的本地ID的标识,用于确定TAL-SCQ5K-EN/TAL-SCQ5K-CN的来源问题,仅供TAL教育集团内部使用,请忽略。
“queId”: 该问题的全局ID的标识,仅供TAL教育集团内部使用,请忽略。
“competition_source_list”: 该问题所出现的数学竞赛的标识,如果已记录。
“difficulty”: 问题的难度级别,取值范围为0到4。
“qtype”: 问题类型,取值为“single_choice”,表示该数据集中的所有问题都是多项选择题,且有唯一的正确答案。
“problem”: 描述数学竞赛问题的字符串。
“answer_option_list”: 可供选择的答案选项。
“knowledge_point_routes”: 从粗粒度到细粒度的知识点链条。
“answer_analysis”: 问题的逐步答案分析,有助于CoT训练。
“answer_value”: 正确答案选项的值。
如何使用
以上每个数据集都位于一个单独的子目录中。要加载单个子集,请使用load_dataset()函数的data_dir参数,如下所示:
本文转载自社区供稿内容,不代表官方立场。了解更多,请关注微信公众号”智慧教育AI开放创新平台”:
如果你有好的文章希望通过我们的平台分享给更多人,请通过这个链接与我们联系:
https://hf.link/tougao