干货! 一键领取超火的 20 个 LLM 中文数据集

1,156次阅读
没有评论

HyperAI超神经

ChatGPT 重磅推出以来,大语言模型 (large language Model, LLM) 以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑,精心构建的数据集不仅为大模型提供了充分的燃料,还为大模型在垂直领域的应用和性能提升提供了可能。

本文整理了一些适用于大模型训练调优的热门中文公开数据集(按照首字母 A-Z 顺序排列),以供大家了解和使用。


温馨提示:

本文列举的所有数据集,均可在 OpenBayes.com 平台一键 Input 直接在模型训练和部署中使用。

链接直达:

https://openbayes.com/console/public/datasets

1

Ape210K 

中国小学水平数学问题

* 发布机构:猿辅导 AI Lab、西北大学

* 相关标签:算术任务、文本生成

* 直接使用:https://hyper.ai/datasets/28445


Ape210K 是一个新的大规模和模板丰富的数学单词问题数据集,包含 210k 个中国小学水平的数学问题。每个问题都包含最佳答案和得出答案所需的方程式。


2

Belle 数据集


* 发布机构:讯飞科大、CCL、HFL

* 相关标签:文本生成、中文

* 直接使用:https://hyper.ai/datasets/28451

本数据集使用了 1,000 个样本的评估集来评估各种模型,涵盖 9 个真实场景,包含约350 万条由BELLE项目生成的中文指令数据。

3

Chinese Squad 

中文机器阅读理解数据集


* 相关标签:抽取式问答、智能问答

* 直接使用:https://hyper.ai/datasets/28476

本数据集是中文机器阅读理解数据集,通过机器翻译加人工校正的方式从原始 Squad 转换而来,其中包括 V1.1 和 V2.0。


4

CMRC 2018 

中文机器阅读理解评测数据集


* 发布机构:讯飞科大、CCL、HFL

* 相关标签:文本生成

* 直接使用:https://hyper.ai/datasets/28470


本数据集包含第二届「讯飞杯」中文机器阅读理解评测 (CMRC 2018) 所使用的数据,并且已被计算语言学顶级国际会议 EMNLP 2019 录用。


5

CrossWOZ 

任务导向对话数据集


* 发布机构:清华大学、BNRIST

* 相关标签:问答数据集、中文

* 直接使用:https://hyper.ai/datasets/28442


CrossWOZ 是首个面向任务的大型中文跨域 Wizard-of-Oz 导向数据集。它包含 5 个场景(景点、酒店、餐馆、地铁、出租)的 6k 个对话和 102k 个句子。此外,语料库包含丰富的对话状态标注和用户与系统双方的对话行为。


6

DRCD

Delta 阅读理解数据集


* 发布机构:台达研究中心、台达电子

* 相关标签:文本检测、机器学习

* 直接使用:https://hyper.ai/datasets/28473


台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD) 属于通用领域繁体中文机器阅读理解资料集。该数据集旨在成为标准的中文机器阅读理解数据集,包含来自 2,108 篇维基百科文章的 10,014 个段落和由标注人员生成的 30,000 多个问题。


7

Douban Conversation Corpus

豆瓣会话语料库


* 发布机构:北京航空航天大学、南开大学、MSR

* 相关标签:问答解析、自然语言处理

* 直接使用:https://hyper.ai/datasets/28497


本数据集包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。测试数据包含 1000 个对话上下文,对于每个上下文,创建了 10 个响应作为候选。


8

DuReader 

问答数据集


* 发布机构:百度

* 相关标签:问答数据集、智能问答

* 直接使用:https://hyper.ai/datasets/28461


DuReader 是关注于机器阅读理解领域的基准数据集和模型,主要用于智能问答任务。


9

E-KAR 中文版

可解释知识密集型类比推理基准


* 发布机构:复旦大学、ByteDance AI Lab、Brain Technologies, Inc.

* 相关标签:文本生成、自然语言处理

* 直接使用:https://hyper.ai/datasets/28517


E-KAR 全称 Benchmark for Explainable Knowledge-intensive Analogical Reasoning,是一个可解释知识密集型类比推理的基准。现有的词语类比测试基准并不能揭示神经模型类比推理的底层过程,研究人员认为具有推理能力的模型应以正确的理由作为基本信念,因此提出了首个知识性可解释类比推理基准 (E-KAR)。基准数据集包括来自公务员考试的 1,655 个(中文)和 1,251 个(英文)问题, 解决这些问题需要大量的背景知识。


10

FCGEC 

中文语法检错纠错数据集


* 发布机构:浙江大学、华为

* 相关标签:文本检测

* 直接使用:https://hyper.ai/datasets/28512


FCGEC 全称 Fine-Grained Corpus for Chinese Grammatical Error Correction,是一个大规模母语使用者的多参考文本纠检错语料,用于训练以及评估纠检错模型系统,数据来源主要是小初高中学生的病句试题以及新闻聚合网站。


11

KdConv 

中文多领域会话数据集


* 发布机构:清华大学

* 相关标签:文本生成

* 直接使用:https://hyper.ai/datasets/28507


KdConv 是一个中文多领域知识驱动的对话数据集,将多轮对话中的主题建立在知识图谱上。KdConv 包含来自三个领域(电影、音乐和旅行)的 4.5K 个对话,以及平均转数为 19.0 的 86k 个话语。适用于对多转向人类对话中的知识交互进行建模,包括知识规划、知识基础、知识适应等。


12

Math23K 

数学单词数据集


* 发布机构:Tencent AI Lab

* 相关标签:语料库、数学问题

* 直接使用:https://hyper.ai/datasets/28504


Math23K 全称 Math23K for Math Word Problem Solving,是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23,162 个中文问题。


13

MedDialog 

中文医患对话数据集


* 相关标签:医学研究、对话数据集

* 直接使用:https://hyper.ai/datasets/28483


MedDialog 是大规模的医疗对话数据集,其中包含医生和患者之间的 110 万条对话和 400 万条话语。


14

ODSQA 

开放域口语智能问答数据集


* 发布机构:台湾大学

* 相关标签:智能问答、自然语言处理

* 直接使用:https://hyper.ai/datasets/28500


ODSQA 数据集是用于中文问答的口语数据集,它包含来自 20 位不同演讲者的三千多个问题。


15

RedGPT

自动生成事实型对话数据集


* 相关标签:文本生成、自然语言处理

* 直接使用:https://hyper.ai/datasets/28448


RedGPT 全称 Reference-Enlightened-Dialogue by GPT and for GPT。事实正确性是 ChatGPT 的一大薄弱环节,想要提升事实正确性,可以标注大量的事实型对话数据用于微调 GPT 模型。为避免人工标注的昂贵成本,研究人员提出一种自动生成事实型对话的方法,并公开部分数据 (RedGPT-Dataset-V1-CN),其中共包含 5 万条中文多轮对话。


16

The United Nations Parallel Corpus 

联合国平行语料库 v1.0


* 发布机构:清华大学、BNRIST

* 相关标签:问答数据集、中文

* 直接使用:https://hyper.ai/datasets/28464


CrossWOZ 是首个面向任务的大型中文跨域 Wizard-of-Oz 导向数据集。它包含 5 个场景(景点、酒店、餐馆、地铁、出租)的 6k 个对话和 102k 个句子。此外,语料库包含丰富的对话状态标注和用户与系统双方的对话行为。


17

VQA 

视觉问答数据集


* 相关标签:视觉问答、问答数据集

* 直接使用:https://hyper.ai/datasets/28455


深度学习的发展促进了多模态学习相关任务的解决。视觉问答 (VQA) 是其中极具挑战的例子,它要求从图像中进行高阶场景的解释 (interpretation),并结合相关的问答语言进行建模。给定一张图像和关于该图像的自然语言问题,任务是提供一个准确的自然语言答案。这是一个使用 Keras 实现的端到端系统,旨在完成这一任务。


18

WebQA v1.0 

百度中文问答数据集


* 发布机构:百度

* 相关标签:深度学习、智能问答

* 直接使用:https://hyper.ai/datasets/28467


这是百度于 2016 年开源的数据集,数据来自于百度知道。格式为一个问题多篇意思基本一致的文章,分为人为标注以及浏览器检索。


19

XiaChuFang Recipe Corpus 

下厨食谱语料库


* 相关标签:文本识别、文本检测

* 直接使用:https://1lh.cc/4jaL8b


本食谱语料库包含 1,520,327 种中国食谱。其中,1,242,206 食谱属于 30,060 菜肴。一道菜平均有 41.3 个食谱。食谱由 415,272 位作者贡献。其中,最有生产力的作者上传 5,394 食谱。

* 直接使用:https://hyper.ai/datasets/28489


20

XQuAD 

跨语言问答数据集


* 发布机构:讯飞科大、CCL、HFL

* 相关标签:问答解析、阅读理解

* 直接使用:https://hyper.ai/datasets/28458


XQuAD(跨语言问答数据集)是一个用于评估跨语言问答性能的基准数据集。该数据集由 SQuAD v1.1(Rajpurkar 等,2016)开发集中的 240 个段落和 1,190 个问题-答案对的子集组成。






一键 Input 上述数据集


丰富的数据集背后仍需要高质量算力平台的支持。目前,OpenBayes 贝式计算平台已支持数据集一键绑定,只需在创建容器期间一键 Input,即可将目标数据集绑定到对应容器,省去了繁琐的下载和上传过程,也不会占用用户个人的存储空间。


视频教程参考:


详细文档参见:https://1lh.cc/v2ao4q


此外,OpenBayes 平台还提供超过 500 个精选公共数据集、模型、教程等优质资源,并已经整合到「公共资源」模块中。


现在体验极速绑定,请访问

https://openbayes.com/console/login


干货! 一键领取超火的 20 个 LLM 中文数据集

戳「阅读原文」免费获取海量数据集资源!

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...