DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题

741次阅读
没有评论

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题

DeepSeek-Coder在列作为神经网络基础

TongGeometry团队 投稿

量子位 | 公众号 QbitAI

国产AI几何模型性能达IMO金牌水平,打平谷歌DeepMind最新AlphaGeometry系列——

TongGeometry,使用的策略网络和价值网络还来自微调版本的DeepSeek-Coder

它能解决IMO-AG-30题中的所有30题,在IMO-AG-50上也能解决42题,而人类金牌选手平均水平分别为:25.9、40.9

例如,下面是TongGeometry提出的一道IMO2024几何题的解法,与标准答案完全一致:

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题

TongGeometry不仅能解题还会出题,所出的题目甚至获得了权威数学竞赛认可。

就在去年全国高中数学联赛预赛北京地区的考试中,就有TongGeometry出的几何题;由美国IMO竞赛教练组组织的一项美国民间数学竞赛USEMO,也收录了TongGeometry出的两道几何题在他们的竞赛短表中。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题

TongGeometry由北京通用人工智能研究院打造,下文是更多细节。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题

DeepSeek加持神经网络基础

IMO是面向全球200多个国家,最顶尖高中生,所举办的最有影响力的数学竞赛。这项竞赛要求参赛选手对代数、数论、几何、组合四项类型的问题有深刻的理解。其中,几何学问题,又常常因为其优美的图形性质,受到众多参赛选手和数学爱好者们的热议。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△Thébault定理,2003年前曾一度被西方认为是最难证明的几何定理之一

业界通常认为,能够代表国家参加该项赛事并获得金牌,是个人在数学研究历程上的莫大荣誉。菲尔兹奖得主陶哲轩(Terence Tao)教授,就曾经是该项赛事最年轻的金牌得主。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△陶哲轩教授参加IMO比赛历史记录

对比赛而言,几何题的难点就在于如何恰到好处地添加辅助线,使得原先难以推理出来的结论,能够借助辅助的点、线、圆来得到。构建这些推理的桥梁,是解决这类问题的关键。

通常,非常困难的问题需要添加数条辅助线才能完成定理的证明。

谷歌DeepMind AlphaGeometry最早提出了使用结合语言模型和逻辑引擎解决此类问题的方案。

在他们的方案中,语言模型负责提出可能的辅助线,推理引擎则负责检查添加辅助线后所能产生的结论是否是我们正在寻找的。如果所需要证明的定理仍然不在其中,系统则需要继续搜索可能的辅助线构造方案。

在最新的工作中,AlphaGeometry宣称其工作超越了奥林匹克竞赛金牌获得者的平均水平,能够解决IMO-AG-30数据集上的所有30题,并能解决IMO-AG-50上的42题。

而人类金牌选手的平均水平分别是,25.9和40.9。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△AlphaGeometry系列工作在数据集上的表现

在AlphaGeometry最新工作公布后,北京通用人工智能研究院的TongGeometry工作也浮出水面。

相比较AlphaGeometry1/2,TongGeometry有如下改进:

  • 摒弃算数推理(AR),仅仅使用归纳数据库方法(DD)
  • 严格构造对称图形,确保几何图形上的优美性
  • 使用马尔可夫链构造树形状搜索结构,并使用人类数据启发数据生成树的搜索方向
  • 利用策略网络(Policy)和价值网络(Value)联合Beam Search进行解题

纯粹的归纳数据库方法

相比较AlphaGeometry,TongGeometry摒弃了DD+AR的方法,转而只使用DD。

据悉,AR方法由于计算慢,效率低,在实际测试中的严重影响性能。TongGeometry使用的DD方法,包含类似AlphaGeometry使用的10个核心谓词:共线(equine),共圆(eqcircle),等长(cong),中点(midp),平行(para),垂直(perp),等角(eqangle),等比(eqratio),相似(simtri),全等(contri)。

这套谓词表示逻辑,能够覆盖IMO 2000-2024年的所有几何题目中的86.8%。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△归纳数据库方法

构造对称图形,确保几何图形保持美观

相比于AlphaGeometry仅仅使用随机化的构造方案,TongGeometry在设计问题搜索时就优先考虑对称图形。这种方法来自开源项目GeoGen。在正式比赛中,多见大量对称图形。

因此,使用对称方法生成数据,能够在有限数据的情况下,尽可能确保数据符合问题的分布。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△TongGeometry生成的对称图形

使用人类数据启发搜索方向

除了在问题构造的时候优先考虑对称结构,TongGeometry在问题生成的时候还将使用人类数据中获得的分布,指导数据生成方向。

TongGeometry从往届IMO,CMO,以及各大比赛中总共收集196题,并使用这个小数据集构造数据。从结果看,这一方法能够产生大量难度上数倍于现有IMO题目的构型。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△使用人类数据进行启发,TongGeometry生成的数据难度可数倍于IMO现有题目难度

利用策略网络和价值网络联合搜索

TongGeometry在解题过程中,使用了类似Reinforcement Learning的Policy和Value两个网络。

Policy网络用于提出可能的解题搜索方向。而Value网络用于从Policy网络提出的所有可能搜索方向中,筛选出最有用的几种方向。

结合Beam Search和后端的逻辑推理引擎,TongGeometry的解题策略能够形成一个闭环。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△策略网络和价值网络联合搜索解题

此外,TongGeometry使用的策略网络和价值网络都来自微调版本的DeepSeek-Coder。可以说,DeepSeek也在默默地助力TongGeometry的发展。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△DeepSeek-Coder在列,作为TongGeometry的神经网络基础

在性能测试上,TongGeometry技术报告显示,TongGeometry能够解决IMO-AG-30题中的所有30题。

根据北京通用人工智能研究院的最新介绍,在IMO-AG-50上,TongGeometry也能解决42题。注意到TongGeometry的技术报告公布于2024年12月份,谁才是第一个超过人类金牌选手平均水平的几何解题工具,还尚值得商榷。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△TongGeometry在2024年12月公布的技术报告中的性能指标

解题/出题样样精通

TongGeometry除了是一个解题达人,还是一个出题教练。TongGeometry的训练数据包含许多很有价值的几何关系发现,其中不乏大量具有镜像对称和旋转对称的美丽构型。

根据报告,这些题目的难度可能数倍于现有的IMO竞赛题目

此外,TongGeometry所出的题目还获得了数学竞赛的认可。在2024年全国高中数学联赛预赛北京地区的考试中,TongGeometry所出的几何题就正式亮相。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△TongGeometry在全国高中数学联赛北京卷和美国奥林匹克竞赛中的供题

去年北京地区的考生,可能神不知鬼不觉地已经经历了一次来自AI的测试。另外,由美国IMO竞赛教练组组织的一项美国民间数学竞赛USEMO,也收录了2题几何题在他们的竞赛短表中(shortlist)。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△北京卷赛题几何部分记录

高效推理,性能提升18倍

相比AlphaGeometry需要246个CPU核心和4块英伟达V100的高性能计算集群才能在90分钟解决一题相比,TongGeometry只需要32个CPU核心和1块4090就能实现满血解题。

在这一配置下,TongGeometry最多用时仅仅需要38分钟

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△AlphaGeometry将解体时间控制在90分钟需要使用246核心CPU和4块英伟达V100的高性能计算集群

相比AlphaGeometry使用246*90核心分钟相比,TongGeometry仅仅需要32*38核心分钟,性能提升18倍有余。在这个配置要求下,你的黑神话主机,都能用来学习几何了。

DeepSeek加持,北大几何模型达IMO金牌水平!32个CPU核心和1块4090就能实现满血解题△TongGeometry仅仅使用32个CPU核心和1块4090就能将解题时间控制在38分钟内

论文链接:https://arxiv.org/pdf/2412.10673

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...