DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

28次阅读
没有评论

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

周日谜题挑战新基准测试

西风 发自 凹非寺

量子位 | 公众号 QbitAI

最新大语言模型推理测试引众议,DeepSeek R1常常在提供错误答案前就“我放弃”了??

Cursor刚刚参与了一项研究,他们基于NPR周日谜题挑战(The Sunday Puzzle),构建了一个包含近600个问题新基准测试。

这些谜题特点是很好理解,不需要专业知识就能看懂,然鹅解决起来却没那么容易。

举个栗子:

想一个熟悉的五个字母、两个音节的单词。将中间字母改为字母表中该字母前面的字母,你将得到一个熟悉的五个字母、三个音节的单词。这个单词是什么?

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

标准答案是alpha → aloha,很容易验证。

但这样的题,即便是在美国长大讲英语的成年人,五天也很难解出来。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

研究人员用此最新基准,对OpenAI o1、OpenAI o3-mini、DeepSeek R1和Google Gemini Flash Thinking等模型进行测试,结果发现这些最新一代的推理模型解决这样的谜题也很具挑战性。

他们还表示,研究揭示了一些新的模型“故障”模式,这在现有的基准测试中并不明显。

比如DeepSeek R1会在推理过程中直接放弃,然后给一个它明知是错误的答案,有时还会陷入“无限思考”状态。

具体来看看是怎么回事。

周日谜题挑战数据集

NPR Sunday Puzzle Challenge,是美国一档广播智力游戏节目,自1987年以来一直在播,每周日听众都会收到一个简短谜题。

这些谜题通常涉及字母游戏,只需要普通的英语知识和美国文化常识就能理解。

不过每个谜题通常只有一个或极少数正确答案,题目难度各异,即便听众有整整五天的时间思考,有时最后也只有少数听众能想出正确答案。而当答案揭晓时,听众们都会恍然大悟觉得这个答案既正确又优雅。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

最近,来自韦尔斯利学院、得克萨斯大学奥斯汀分校、查理大学、Cursor、欧柏林学院、美国东北大学的研究团队,从网上抓取了13年的周日谜题挑战记录构建了一个数据集。

他们认为,目前一些最新基准测试用非常难的任务评估模型,比如大学级数学竞赛问题、编程问题以及需要在学术领域深入的领域专业知识问题,这种设计不仅对人类来说难以解决,而且也非常难以理解和验证。

也就是说,大多数人或无法检查答案是否确实正确,或无法验证模型在推理上是否正确且有效。

于是,他们从这个节目的“off-air challenges”中整理出了近600个问题作为测试数据集。

这些题目很好理解且便于验证。

在整理过程中,他们补充了必要的上下文信息(时间、地点等),比如在一个关于电影名称的谜题中,特意标注了具体年份,避免歧义。

电影Wild Wild West的首字母缩写是三个W。请问去年2013年哪部著名电影的首字母缩写有两个W?
标准答案:The Wolf Of Wall Street

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

为确保每个问题的答案清晰明确,大多数挑战都有一个或少数几个独特答案,像下面这样婶儿有许多答案的问题都被pass掉了:

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

然后团队用该基准评估了一众顶流推理模型,包括OpenAI o1、o1-mini、o3-mini,DeepSeekR1、谷歌Gemini 2.0 Flash Thinking Experimental01-21,作为对照,还测试了不具备推理功能的GPT-4o和Claude Sonnet 3.5。

测试采用zero-shot prompting,直接向模型提供问题,不给任何额外的格式说明或指导。

不过有些谜题题目本身自带示例说明:

SWITZERLAND(瑞士)的字母可以重新排列成LIZARD(蜥蜴)和NEWTS(蝾螈)两个单词,LIZARD是一个动物的单数形式,而NEWTS是复数形式。请再说出另一个具有相同特性的国家。即另一个其字母可以重新排列来拼写两种动物——一个单数和一个复数的国家。它是一个主要国家。这个国家是哪一个?

标准答案:Mexico(墨西哥) → ox(牛),mice(老鼠)

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

团队给出的最终测试结果却出人意料。

根据下图该基准的平均准确率,OpenAI o1表现最优,准确率为59%;然后是o3-mini,准确率为47%,DeepSeek R1准确率为35%。

不具备推理功能的GPT-4o和Claude Sonnet 3.5明显不如推理模型。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

出人意料的点在于,在博士级科学问题GPQA基准上,DeepSeek R1、OpenAI o1和o3-mini的表现差距不大,然而在该基准上o1在通用知识方面却显示出明显的优势。

团队还观察到一些新的模型“故障”模式——推理半道“I give up”

这种放弃表现出两种形式,一种是给出一个在推理过程中完全没有出现过的“凭空”答案

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制
DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

另一种是明知违反问题约束但仍然给出答案,常发生在下面这种问题中:

想一个包含三个音节的八个字母的单词,每个音节中都包含字母“I”,但奇怪的是,没有一个“I”发音,无论是长音还是短音。答案不是复数形式。这个单词是什么?

标准答案:Daiquiri

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

以DeepSeek R1为例,它给出了“queueing”这个答案,并直接表示这个答案“有点牵强”,还解释有些人可能会把“queueing”发音为“kyoo-ee-ing”。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

团队表示,在595个测试问题中,DeepSeek R1在142个问题上明确“放弃”。

此外,他们还发现R1等会陷入“无限思考”的状态,在达到32768token上下文输出限制前无法完成推理,并没有</think>。

特别在以下两个挑战中R1表现不佳,在10次试验中有5次未能完成推理。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

即使将限制提高到128K,这个问题仍然存在,由此,团队认为R1需要某种推理时机控制机制,鼓励模型在接近输出token限制时结束推理。

研究人员还发现,这些推理模型有时会表现出异常的不确定性,可能会提出一个答案,马上又收回,然后尝试给出新答案。

在某些情况下,模型很早就找到了正确答案,但仍会继续探索其它可能性。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制
DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

最后团队分析了推理长度与准确率的关系,发现在输出约10000个token后,继续推理对提升准确率的帮助不大

对于R1来说,在输出约3000 token时就开始超过Gemini Thinking的表现。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

新基准引发网友热议

这项研究发布后,在Hacker News上引起网友热烈讨论。

其中最具争议的一个点在于,有网友认为这项研究并非传统意义上的“推理”挑战

解决这些问题所需的核心技能似乎是知晓“流行品牌名”或“知名演员”等类别的所有已知名称,检查它们是否符合。

作为人类,你可能会因为不知道某个特别名称而永远无法回答某个问题,例如不是美国人,我不知道“Citgo”是什么,我这辈子从未见过这个名。

网友表示这的确是一个AI系统原则上可能真正擅长的事情,但当测试内容过于侧重“记忆回忆”时,把它称为“推理”似乎很奇怪。

如果问题是多项选择的,消除了让候选答案浮现在脑海中的挑战,那么我会同意这是一个“推理”测试。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

持此观点的网友不在少数。

我有同样的想法。这让我想起解决Project Euler问题,通常存在一种明显的简单方法可以保证得出正确答案,但如果执行到完成,将消耗过多的内存/计算资源。如果提示模型制定一种有效解决这些挑战的策略,而不是直接解决它们,模型的表现可能会好得多……这表明了一个潜在的改进方向。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

另外,针对模型表现不一,也有网友提出能否确定这些谜题和答案没被加到模型的训练数据中的疑问。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

聚焦到研究结果上,网友对研究中的发现很感兴趣:

有趣的是,模型在推理中经常包含正确答案,但却没能意识到这一点。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

数草莓问题中“r”这一问题也再被网友搬出,有网友认为模型表现不佳的关键还是在分词器上。

DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制

对于这项研究你怎么看?

论文链接:https://arxiv.org/abs/2502.01584
测试结果和数据集:https://huggingface.co/spaces/nuprl/verbal-reasoning-challenge
参考链接:https://news.ycombinator.com/item?id=42992336

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy