斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准

明敏
2025-01-06
09:55:45

来源：量子位

能力涌现怕不是检索题库

奇月发自凹非寺

量子位 | 公众号 QbitAI

只是换一下数学题的变量名称，大模型就可能集体降智？？

斯坦福大学最新研究表明，在他们最新提出的Putnam-AXIOM测试集上，仅仅是更换一下原题目的变量名称、变量取值范围，模型的准确率就直线下降。

也就是说，大模型的数学推理能力并不是真正掌握了解题逻辑，很可能只是检索已存储的题目……

即使是表现最好的o1-preview，它的成绩也从50%下降到了33.96%，GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。

要知道，模型推理能力的稳健性可是非常重要的指标，能代表他们是否真正掌握了解决方法：

有网友锐评到：o1的o不会是overfitting的o吧？（doge）

还有热心网友做了解释，他认为模型的搜索空间会随着深度指数级增长，搜索时间越长，搜索的难度也会更高。

全新无污染的数学测试基准

LLM在复杂数学问题上的推理能力逐渐成为模型发展的关键挑战，然而现有的评估基准，如MMLU、MMMU、GSM8K和MATH等却面临着很多问题。

一方面，数据污染可能导致模型在评估中表现虚高，因为模型可能在训练过程中接触到了评估基准中的问题。

另一方面，最先进的模型在许多现有基准上已经达到或超过人类水平，这使得这些基准失去了应有的评估价值。

对此，斯坦福研究团队提出了Putnam-AXIOM基准，专用于评估模型在解决复杂数学问题上的能力。

该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。

随便举个例题大家感受一下：

这些题目涵盖了11个不同数学领域的问题，团队也进行了筛选，确保能产生便于自动化评估的boxed{}答案。

同时，他们还借鉴MATH数据集的方法进行模型评估，并设计了一个等价函数，可以解决字符串不一致问题、和复杂的数学等价同质化问题。

除此之外，为防止模型在训练过程中遇到Putnam原问题而出现评估偏差，团队还引入了功能变异构建变异数据集。

变异分为变量变化（仅改变量名）和常数变化（修改数值属性）两类，能生成无限多相同难度的新问题，而且这些问题在互联网上没有现成的答案。

具体的变化形式就像这样：

在实验中，研究人员将1985-2023年的竞赛中的236个问题整理成标准化格式，使用LM Harness评估框架对多个开源模型的SOTA LLMs进行评估。

样本包括236个原始问题和52个变异问题，参与测试的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模型。

题目一变，模型集体懵

实验结果有些令人意外，模型们的表现都不太乐观。

首先来看看模型们在原始数据集上的表现。

多数模型的准确率都低于10%，曾获AI数学奥林匹克竞赛冠军的NuminaMath仅为4.66%，可见Putnam-AXIOM数据集难度真的很高。

而在变异数据集上，模型们的准确率则显著下降。

比如在原始数据集上表现最好的o1-preview，准确率为50%，而在变异数据集中则降到了33.96%。

也就是说，o1-preview模型在原始问题上表现可能虚高，之前的得分主要是依赖记忆而非真正的推理能力。

排名第二的Claude在原始数据集上的准确率为26.40%，而在变异数据集上的准确率降至18.86%，其他模型的分数也基本都下降了。

团队还进一步对OpenAI o1-preview和GPT-4o的答案进行了分析。

结果发现它们的错误都比较严重，在逻辑推理和数学严谨性方面存在着明显的缺陷。

下面一起康康几个例子。

比如o1-preview在解答问题时就没能提供充分的证明，它声称m的最大可能值是n，理由是m的上界是2n，但它没有说明为什么m的值介于n和2n之间不可行。

而GPT-4o则存在逻辑跳跃和不连贯的推理，比如在下面这道题中，它从逻辑上直接跳转到面积最小的几何形状是矩形这一观点，但并没有证明这一说法的合理性，而是将其默认为事实。

DeepSeek的模型也在关键步骤思维发生了跳跃，导致最终结果失误。

看来，提升大模型的数学能力还是任重道远呀！

不过斯坦福大学这篇文章中的Putnam-AXIOM基准的确缓解了现有基准饱和的问题。

它不仅为评估模型的数学推理能力提供了一个非常有挑战性的新方法，还实现了完全自动化评估、并提供了丰富多样的变体数据集。

团队也表示，虽然目前变体数据集生成过程复杂耗时，但未来如果能优化变体生成方法，将更有助于加速关于人工推理的研究。

论文：https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf
代码：https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

2025 年 1 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准

全新无污染的数学测试基准

题目一变，模型集体懵

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex