别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

明敏发自凹非寺
量子位 | 公众号 QbitAI

“别让大模型被基准评估给坑了”。

这是一项最新研究的题目，来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校。

研究发现，基准测试中相关数据意外被用于模型训练的现象，变得越来越常见了。

因为预训练语料中包含很多公开文本资料，而评估基准也建立在这些信息之上，本来这种情况就在所难免。

现在随着大模型试图搜集更多公开数据，问题正在加重。

要知道，这种数据重叠带来的危害非常大。

不仅会导致模型部分测试分数虚高，还会使模型泛化能力下降、不相关任务表现骤降。甚至可能让大模型在实际应用中产生“危害”。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

所以这项研究正式发出警告，并通过多项模拟测试验证了可能诱发的实际危害，具体来看。

大模型“被漏题”很危险

研究主要通过模拟极端泄露数据的情况，来测试观察大模型会产生的影响。

极端泄露数据的方式有四种：

使用MMLU的训练集
使用MMLU以外所有测试基准的训练集
使用所有训练集+测试prompt
使用所有训练集、测试集和测试prompt（这是最极端情况，仅为实验模拟，正常情况下不会发生）

然后研究人员给4个大模型进行“投毒”，然后再观察它们在不同benchmark中的表现，主要评估了在问答、推理、阅读理解等任务中的表现。

使用的模型分别是：

GPT-Neo（1.3B）
phi-1.5（1.3B）
OpenLLaMA（3B）
LLaMA-2（7B）

同时使用LLaMA（13B/30B/65B）作为对照组。

结果发现，当大模型的预训练数据中包含了某一个评测基准的数据，它会在这一评测基准中表现更好，但在其他不相关任务中的表现会下降。

比如使用MMLU数据集训练后，多个大模型在MMLU测试中分数提高的同时，在常识基准HSwag、数学基准GSM8K中分数下降。

这表明大模型的泛化能力受到影响。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

另一方面，还可能造成不相关测试分数虚高。

如上给大模型进行“投毒”的四个训练集中仅包含少量中文数据，但是大模型被“投毒”后，在C3（中文基准测试）中的分数却都变高了。

这种升高是不合理的。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

这种训练数据泄露的情况，甚至会导致模型测试分数，异常超越更大模型的表现。

比如phi-1.5（1.3B）在RACE-M和RACE-H上的表现优于LLaMA65B，后者是前者规模的50倍。

但这种分数升高没有意义，只是作弊罢了。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

更严重的是，哪怕是没有被泄露数据的任务，也会受到影响，表现下降。

下表中可以看到，在代码任务HEval中，两个大模型都出现了分数大幅下降的情况。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

同时被泄露数据后，大模型的微调提升远不如未被泄露情况。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

对于发生数据重叠/泄露的情况，本项研究分析了各种可能。

比如大模型预训练语料和基准测试数据都会选用公开文本（网页、论文等），所以发生重叠在所难免。

而且当前大模型评估都是在本地进行，或者是通过API调用来获得结果。这种方式无法严格检查一些不正常的数值提升。

以及当下大模型的预训练语料都被各方视为核心机密，外界无法评估。

所以导致了大模型被意外“投毒”的情况发生。

那该如何规避这一问题呢？研究团队也出了一些建议。

如何规避？

研究团队给出了三点建议：

第一，实际情况中很难完全避免数据重叠，所以大模型应该采用多个基准测试进行更全面的评估。

第二，对于大模型开发者，应该要对数据进行脱敏，公开训练语料的详细构成。

第三，对于基准测试维护人员，应该提供基准测试数据来源，分析数据被污染的风险，使用更多样化的提示进行多次评估。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

不过团队也表示本次研究中还存在一定局限。比如没有对不同程度数据泄露进行系统性测试，以及没能在预训练中直接引入数据泄露进行模拟等。

本次研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的多位学者共同带来。

在研究团队中我们发现了两位数据挖掘领域大佬：文继荣和韩家炜。

文继荣教授现任中国人民大学高瓴人工智能学院院长、中国人民大学信息学院院长。主要研究方向为信息检索、数据挖掘、机器学习、大规模神经网络模型的训练与应用。

韩家炜教授领衔是数据挖掘领域专家，现为伊利诺伊大学香槟分校计算机系教授，美国计算机协会院士和IEEE院士。

论文地址：
https://arxiv.org/abs/2311.01964

— 完 —

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》，启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司，参与共创，分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人：郑钰瑶（微信：CarolineZheng_，请备注企业+姓名）。

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

2023 年 11 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

明敏发自凹非寺
量子位 | 公众号 QbitAI

大模型“被漏题”很危险

如何规避？

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

刚开年，马斯克就到账了200亿美金！

B站开启AI创作大赛，首次开放《三体》改编权，奖金总计超300万

卓世科技，股改完成！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

老黄All in物理AI！最新GPU性能5倍提升，还砸掉了智驾门槛

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

刚开年，马斯克就到账了200亿美金！

B站开启AI创作大赛，首次开放《三体》改编权，奖金总计超300万

卓世科技，股改完成！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

老黄All in物理AI！最新GPU性能5倍提升，还砸掉了智驾门槛

别让大模型被基准评估坑了！测试集乱入预训练，分数虚高，模型变傻

明敏 发自 凹非寺量子位 | 公众号 QbitAI

大模型“被漏题”很危险

如何规避？

文心AIGC

明敏发自凹非寺
量子位 | 公众号 QbitAI