Nature重磅:击败人类数学家,AI首次攻破经典数学难题

1,189次阅读
没有评论

人工智能AI)大模型,击败了人类数学家。

今天,在 Nature 上发表的一篇论文中,Google DeepMind 的研究团队介绍了一种搜索数学和计算机科学新解决方案的方法——FunSearch,它的工作原理是将预先训练的大型语言模型(LLMs)与自动“评估器”配对,从而防止幻觉和错误想法。通过在这两个组件之间来回迭代,最初的解决方案会演变成新的知识。

Nature重磅:击败人类数学家,AI首次攻破经典数学难题

这项研究首次利用了 LLMs 在挑战科学或数学中的开放问题。FunSearch 发现了上限集问题的新解决方案,而这是数学中一个长期存在的开放问题。此外,为了展示 FunSearch 的实际用途,研究人员用它来发现更有效的算法来解决“装箱”问题,该问题具有无处不在的应用,例如提高数据中心的效率。

 

科学进步始终依赖于分享新理解的能力。FunSearch 成为特别强大的科学工具的原因在于,它输出的程序揭示了如何构建其解决方案,而不仅仅是解决方案是什么。论文作者表示,“希望这能够激发使用 FunSearch 的科学家的进一步见解,推动改进和发现的良性循环。”

 

威斯康星大学麦迪逊分校的合作者和数学教授 Jordan Ellenberg 表示:“FunSearch 生成的解决方案在概念上比单纯的数字列表要丰富得多。当我研究它们时,我学到了一些东西。”

 

 

发现最大上限集,解决“装箱”问题

 

FunSearch 采用由 LLMs 支持的进化方法,促进和开发得分最高的创意。这些想法被表达为计算机程序,以便它们可以自动运行和评估。

 

首先,用户以代码的形式编写问题的描述,该描述包括评估程序的过程和用于初始化程序池的种子程序。

 

FunSearch 是一个迭代过程。在每次迭代中,系统都会从当前的程序池中选择一些程序,并将其反馈到 LLMs。随后,LLMs 创造性地在此基础上构建,并生成新的程序,并自动评估。最好的程序将被添加回现有程序库中,从而创建一个自我改进的循环。

 

FunSearch 使用了 Google 的 PaLM 2,但它与其他受过代码训练的 LLMs 兼容。

 

Nature重磅:击败人类数学家,AI首次攻破经典数学难题

图|FunSearch 过程

研究重点关注了上限集问题,这是一项公开挑战,数十年来一直困扰着多个研究领域的数学家,著名数学家陶哲轩曾将其描述为他最喜欢的开放问题。

 

该问题包括在高维网格中找到最大的点集(称为上限集),其中没有三个点躺在一条线上。这个问题很重要,因为它可以作为极值组合学中其他问题的模型,研究数字、图形或其他对象的集合可以有多大或有多小。解决这个问题的强力计算方法不起作用,需要考虑的可能性数量很快就变得比宇宙中的原子数量还要多。

 

Nature重磅:击败人类数学家,AI首次攻破经典数学难题

图|交互式图表显示了从种子程序(上)到新的高分函数(下)的演变,每个圆圈都是一个程序,其大小与分配给它的分数成正比。

然而,FunSearch 以程序的形式在某些设置中发现了迄今为止发现的最大上限集,这是过去 20 年来上限规模最大增幅。此外,FunSearch 的性能还优于最先进的计算求解器。

 

此外,研究人员还将 FunSearch 应用于计算机科学中的实际挑战来探索 FunSearch 的灵活性。“装箱”问题着眼于如何将不同尺寸的物品装入最少数量的箱子中,这是许多现实世界问题的核心。

 

 

在线装箱问题通常使用基于人类经验的算法经验法则(启发式方法)来解决,但针对不同规模、时间或容量的具体方案可能难以提出。为此,FunSearch 提供了一个自动定制的程序(适应数据的具体情况),使用更少的箱子来包装相同数量的物品,性能优于既定的启发式方法。

 

 

这只是一个开始

 

在不同领域发现新的数学知识和算法是一项众所周知的艰巨任务,很大程度上超出了最先进的 AI 系统的能力。为了使用 FunSearch 解决此类具有挑战性的问题,该研究引入了多个关键组件

 

值得一提的是,FunSearch 并不是一个仅仅生成问题解决方案的黑匣子。相反,它会生成程序来描述如何得出这些解决方案,而这种展示工作方法是科学家通常的运作方式

 

FunSearch 倾向于寻找以高度紧凑的程序为代表的解决方案,具有低柯尔莫哥洛夫复杂度(low Kolmogorov complexity)的解决方案。短程序(Short programs)可以描述非常大的对象,使 FunSearch 能够扩展到大海捞针的大型问题。此外,FunSearch 的这种特点也使得其程序输出更容易让研究人员理解。

 

更重要的是,FunSearch 程序的这种可解释性可以为研究人员提供可行的见解。例如,当使用 FunSearch 时,它的一些高分输出的代码中存在有趣的对称性。

 

Nature重磅:击败人类数学家,AI首次攻破经典数学难题

图|检查 FunSearch 生成的代码产生了进一步的可操作的见解(左);使用左侧(更短的)程序构建的原始“可接受”集(右)。


上限集问题的研究结果表明,FunSearch 技术可以超越困难组合问题的既定结果,而在这些问题上很难建立直觉。研究人员期望这种方法能够在组合学中类似理论问题的新发现中发挥作用,并在通信理论等领域开辟新的可能性。

 

另外,在线装箱等硬组合问题可以使用其他 AI 方法来解决,例如神经网络和强化学习。事实证明,FunSearch 的方法也有效,但也可能需要大量资源来部署。另一方面, 该方法输出的代码可以轻松检查和部署,这意味着其解决方案有可能被植入到各种现实世界的工业系统中,以带来快速的效益。

 

FunSearch 表明,如果能够防范 LLMs 的幻觉,这些模型的力量不仅可以用来产生新的数学发现,还可以揭示对重要现实世界问题的潜在有效解决方案。

 

研究团队预计,对于科学和工业中的许多问题(无论是长期存在的还是新的),使用 LLMs 驱动的方法生成有效且定制的算法将成为普遍做法。

 

事实上,这只是一个开始。研究人员表示:“我们还将努力扩大其能力,以解决社会各种紧迫的科学和工程挑战。”

 

参考链接:

https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

https://www.nature.com/articles/s41586-023-06924-6


|点击关注我 👇 记得标星|

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...