仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

501次阅读
没有评论

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

结果对标谷歌和OpenAI,并获陶哲轩认可

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

无需谷歌“钞能力”,两位清华校友强强联合,直接让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平。

只需一个小小的提示词改动……

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

该发现来自两位清华校友杨林黄溢辰,他们共同设计了一套自我迭代验证流程和提示词优化,就成功让Gemini 2.5 Pro完成了今年IMO题目的解答。

他们还刚刚更新了代码,直接利用通用提示词就能实现模型推理增强。

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

好家伙,原来我们都被LLM骗了,基础大模型早就弯道超车,具备超强的解决复杂数学推理问题的能力。

只不过,直接用效果并不好。

就像MathArena也用Gemini 2.5 Pro跑了本次IMO题目,结果只有13分,远低于IMO铜牌门槛(19/42)

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

但只要加一点点提示词魔法和迭代验证,就能实现1+1>2。

这一点也受到了陶哲轩的认可:

我认同严格验证是在复杂数学任务中取得出色表现的关键。

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

具体是怎么做到的?我们接着往下看。

通用提示词+迭代验证

首先为什么最近AI模型都喜欢参加IMO测试呢?

其实是因为相较于面向中小学水平题目的传统数学基准GSM8KMATH等,IMO可以更为充分地考验模型的抽象思维和多步骤逻辑推理能力,堪称检验LLM推理能力的“试金石”

不过前几年模型结果都不尽如人意,要么是无法理解题目要求,要么是“偏科”某一类问题。

直到今年才首次有官方认可的金牌AI出现,谷歌OpenAI均完成了5道题,其中谷歌Gemini模型搭载了新的Deep Think模式,OpenAI的模型据悉也是在通用强化学习计算扩展方面实现了技术突破。

但现在,研究团队只用提示词设计,就达成了上述效果。

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

关键在于,他们设计了一套自我验证流程,依次可分为六个步骤:

  1. 初始解决方案生成:模型首先根据提示词生成初步解答,要求每一步逻辑推理清晰、解释明确。
  2. 自我改进:模型对初始答案进行回顾和优化,弥补初始生成中因思维预算有限导致的不足。
  3. 验证解决方案并生成错误报告:在验证器中根据提示词验证解答,生成包含关键错误(如逻辑谬误或事实错误)和不完整论证在内的问题报告。
  4. 审查错误报告(可选):对问题报告进行复核,删除误报的问题,提升报告可靠性。
  5. 基于错误报告纠正或改进解决方案:根据问题报告改进解答,修正后返回验证步骤。
  6. 接受或拒绝解决方案:若解答连续5次都通过验证,则接受该回答;若连续迭代10次,都存在重大问题,则拒绝此答案。

具体来说,整个过程是由Gemini 2.5 Pro构成的求解器(solver)验证器(verifier)执行,采用差异化提示词以达到不同作用。

其中求解器主要负责生成和改进答案,在提示词设计上将严谨性设为首要目标,确保结果可严格验证。

但由于Gemini 2.5 Pro的最大思考tokens为32768,在初始生成答案时无法独立完成负责的IMO问题,所以通过步骤2中的自我改进,额外注入32768 tokens,让模型回顾并优化初始解答,提升整体质量。

然后使用验证器模拟IMO评分专家,进行迭代改进,并决定是否接受改进后的解决方案。

验证器会逐一检查解答并找出存在的问题,将问题分为关键错误论证缺口两类,其中关键错误是指明显错误或存在清晰逻辑谬误的内容,会严重破坏证明的逻辑链条,引向错误答案。

论证缺口包含主要缺口次要缺口,主要缺口可能会导致整个证明失败,而次要缺口可能会产生正确结论,但论证仍然是不完整的。

当发现问题后,验证器随即会输出一份错误报告,为模型改进解决方案提供有用信息,在步骤4中对验证器的误判进行改正,然后模型根据报告尝试改进答案。

由于验证器可能出错,所以需要足够次数的重复迭代,降低误判影响,最终如果答案能通过验证则接受,如果始终存在关键错误或主要论证缺口,则拒绝。

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

具体实验过程中,研究团队选择刚刚发布的IMO 2025题目,因为发布时间较短,可以有效避免训练数据污染,确保评估的真实性。

另外在参数设置上,选择较低的温度值0.1,因为较高的温度可能会导致更多的随机错误,并使用Gemini 2.5 Pro的推理token上限,同时排除其它模型、代码干扰。

关键提示词中,初始生成的提示词要求有充分理由支撑答案,如果不能找到完整解决方案,不能进行编造,且所有数学内容用TeX格式呈现。

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

输出格式需严格按照总结到详细解决方案的顺序,其中总结包括结论和方法概述,详细解决方案中需要呈现完整、逐步的数学证明,在最终输出前还要仔细检查以符合所有指令。

验证提示词里,唯一任务就是找出并报告解决方案里的所有问题,并不尝试纠正漏洞,需生成详细验证日志并将问题进行分类,输出格式包括总结和详细验证日志,总结又包括最终判定和发现列表。

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

最终,模型实现为IMO的6道题目中的5道生成了完整且数学严谨的解决方案,其中前两道题目各生成了有提示和无提示的两种解决方案。

第一题提示使用数学归纳法,第二题提示使用解析几何完成,通过对比可得,详细的提示词可以减少计算搜索空间、提高效率,但并不会额外赋予模型新的能力。

在未能解决的第六题上,研究人员发现模型是在其中一个有关证明时出现核心错误,从而导致后续证明无效。

实验结果证明,结构化迭代流程将是LLM的潜在能力转化为严谨数学证明的关键,可突破单次生成中例如有限推理预算和初始答案错误等局限性。

另外研究人员预计,如果使用Grok 4OpenAI-o系列或者类似于Grok 4 heavy的多智能体系统代替,可能会产生更强的数学能力。

清华校友强强联合

本次研究的两位作者——黄溢辰杨林,他们是清华大学数学物理基础科学实验班的本科同学,毕业后又分别前往海外高校深造。

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

黄溢辰在加州大学伯克利分校取得物理学博士学位后,曾在微软担任AI研究员,后在加州理工学院担任博士后,师从凝聚态物理领域大拿陈谐教授。

陈谐教授本科同样毕业于清华大学,并在2012年获得麻省理工学院理论物理博士,目前是加州理工学院的Eddleman理论物理学教授。

主要研究的是量子凝聚态系统中的新型相和相变,包括强关联系统中的拓扑序、多体系统动力学、张量网络表示以及量子信息应用等。

曾在2017年斩获斯隆奖,后又因其对物质拓扑态及相互关系的卓越贡献,荣获2020年物理学新视野奖,该奖项隶属于科学突破奖的子奖项,要知道科学突破奖也被誉为当代科学界的“奥斯卡奖”

后续黄溢辰又接着在麻省理工学院理论物理中心和哈佛大学物理系继续从事博士后研究,主要研究方向是量子物理学,包括量子信息学、 凝聚态理论和机器学习

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

另一位作者杨林,目前是加州大学洛杉矶分校的副教授,任职于电气与计算机工程系以及计算机科学系。

仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂

此前,他曾获得约翰霍普金斯大学的计算机科学和物理与天文学双博士学位,又曾在普林斯顿大学从事博士后研究,师从王梦迪教授。

王梦迪14岁就考入清华,23岁就从麻省理工学院博士毕业,其导师还是美国国家工程院院士Dimitri P. Bertsekas,年仅29岁就成为普林斯顿大学终身教授。

研究领域主要涉及生成式人工智能、强化学习、大语言模型等,2024年还曾获得控制领域最高奖项Donald P. Eckman奖(每年仅颁发给一位获奖者)

而杨林教授的研究重点则是强化学习理论与应用、机器学习和优化理论、大数据处理和算法设计等,他曾在ICMLNeurIPS等顶级机器学习会议上发表过多篇论文,还曾获得亚马逊教授奖、西蒙斯学者奖等。

有限的资源下,学术界也能比肩大厂

对于本次研究的相关细节,量子位也和杨林教授深入聊了聊。

首先是为什么会优先选择Gemini 2.5 Pro作为研究对象,杨林教授表示:

实验开始时Gemini相对比较方便,可调的参数较多。

而当谈及Gemini 2.5 Pro在解决前5道问题所涉及的计算资源和耗时,杨林教授也是坦然回应道:

具体资源我们没有仔细统计,但大致估算下,第一步大概需要60000token,之后的每次验证,如果通过则15000token,如果需要修改则需要30000token。

每次由于随机性都会有所差异,不同题目需要的tokens数在300k到5000k都是有可能的,比如运气不好的时候,一道题目就做了8次独立实验。而计算时间则取决于谷歌服务器的空闲度,最快10分钟左右就能解出一道题。

关于使用提示前后模型的差异,杨林教授也表示:

当使用提示后,模型基本一次独立实验(Agent输出失败或成功算一次独立实验)就能解决题目,但不使用模型的思维会发散,之前提及的8次独立实验就是在没有使用提示的情况下出现的。

至于没有成功解决的第六题,杨林教授认为主要问题还是出在验证器上:

当求解器输出假阳性答案时,验证器没能很好地区分一些细节。

目前团队已经进行了手动验证,自我检查了证明的所有细节,但缺乏官方评分,杨林教授也希望如果组委会有兴趣,他们很乐意参与IMO官方评分,进一步验证解答。

未来他们也将会通过使用更多训练数据进行预训练和微调,以提升基础模型的能力。

之后杨林教授也分享了一些本次研究中他所收获的心得体会:

有时候基础模型的能力需要用其它方法释放,如果未来模型训练达到瓶颈,那么Agent方法可能是破局的关键。而本次研究也让我们看到,学术界利用有限的资源,也能做出与大厂同等重要的成果。

他也希望AI在未来能在数学研究中扮演更为重要的角色,尤其是在一些长期悬而未决的问题上

最后也帮读者朋友们向教授询问了一些与AI共存的建议,杨林教授相当谦虚地表示:

同学们比我年轻,对AI的使用可能比我更加自然,所以我提不出什么建议。但就我自身而言,我希望在使用AI的同时,也能提高自身的知识水平。

简而言之就是,使用并向它学习。

论文链接:https://www.alphaxiv.org/abs/2507.15855v2

参考链接:
[1]https://x.com/ns123abc/status/1948223115437154372
[2]https://github.com/lyang36/IMO25
[3]https://x.com/lyang36/status/1947466281990738339

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 8 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...