用类人开发数据语料库预训练大语言模型

1,173次阅读
没有评论

Pre-training LLMs using human-like development data corpus

K Bhardwaj, R S Shah, S Varma
[Georgia Institute of Technology]

用类人开发数据语料库预训练大语言模型

要点:

  • 探索了用一个小型的、类似人类的数据集(1000-1亿个token)来预训练大型语言模型,而不是通常使用的更大的数据集。
  • 目的是更好地理解人类语言获取,在人类行为特征上评估模型,并使模型与人类认知保持一致。
  • 共享任务分为严格、小规模严格和宽松三个track,允许不同的数据集大小,本文重点关注严格和小规模严格track。
  • 本文从头训练了RoBERTa、DistilBERT和GPT-2,并在各种基准测试上进行评估,更多训练轮次通常能改进性能。
  • 在相同训练轮次下,架构变化的影响较小,本文提供了每个训练轮次的检查点,以方便未来研究。
  • 在SuperGLUE上,预训练优于多数类基线,与以前的认识不同,BLIMSP任务的表现随着训练轮次的增加而提高。
  • 复制发表的基线结果是困难的,这表明训练缺乏鲁棒性并对超参数敏感。

动机:评估使用与儿童所见的语言Token数量相当的语料库对大型语言模型(LLM)进行预训练的能力。这样的预训练方法可以更好地模拟人类学习过程,并在新的LLM训练技术、模型评估以及人类认知模型方面提供更好的基础。
方法:使用了不同的模型架构,在与儿童所见的语言Token数量相当的语料库上对LLM进行了预训练,并通过多个任务的评估来比较它们的性能。同时,论文还尝试复现了任务组织者提供的RoBERTa基线,并观察了模型对超参数选择和可复现性的鲁棒性。
优势:通过使用与儿童相似数量的语言Token进行预训练,可以更好地模拟人类学习过程,并为LLM的发展提供更好的基础。此外,论文还提供了对不同模型架构的强大基线和评估方法,以及对预训练指标的详细报告。

一句话总结:
通过使用与儿童相似数量的语言Token进行预训练,评估了大型语言模型在不同任务上的性能,并提供了对模型鲁棒性和可复现性的观察,以更好地模拟人类学习过程。

https://arxiv.org/abs/2311.04666 

用类人开发数据语料库预训练大语言模型

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...