只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

不圆
2025-09-15
15:51:47

来源：量子位

用LLM+树搜索，去大海捞针吧

不圆发自凹非寺

量子位 | 公众号 QbitAI

只要科学任务可以评分，AI就能找到超越人类专家的方法，实现SOTA结果？

这是谷歌一篇最新论文里的内容：

使用大模型+树搜索，让AI大海捞针就行。

他们还开发了一个帮助科学家编写专家级实证软件的AI系统。

该系统在生物信息学、流行病学、地理空间分析等领域发明的新方法，都达到了SOTA的水平。

网友表示：任何可量化的东西都将被AI征服。

这篇论文目前在X上获得了2.6K赞，引发了广泛的讨论。

让我们一起看看。

可评分任务在科学中无处不在

实证软件指的是以最大化可定义或可度量的质量指标（通常指对现有观测数据的拟合度）为设计目标的软件。

如果一个任务可以用实证软件解决，就可以被称为可评分任务。

论文表示，他们构建这个系统主要是基于两个原因：

一方面，可评分任务在科学界无处不在。如今几乎每个科学子领域、应用数学和工程领域都依赖软件，其中大部分软件都是解决可量化任务的实证软件。

另一方面，科学实证软件的开发过程缓慢且艰难。特定领域的实证软件需要繁琐的工作，通常需要数年才能完成。

而这个新系统能够系统地自动创建实证软件，以解决可评分任务。

简单地说，该方法基于大语言模型（LLM），通过让LLM重写代码来提升软件的质量评分。系统首先生成大量的候选软件解决方案，然后运用树搜索算法筛选值得进一步优化的候选方案。

虽然代码变异系统的设计方式多样，但研究人员通过设计基于基础Kaggle竞赛基准的对抗测试，持续改进了该方法。

研究人员通过注入研究思想来增强代码变异能力——这些思想来源广泛，涵盖从高被引论文、专业教科书到搜索引擎结果等多个渠道。

在实际应用中，用户既可直接注入这些思想，也可通过搜索引擎自动获取文献研究成果。

LLMs在代码编写过程中会充分利用这些注入的指导信息。

结果显示，该系统可广泛应用于科学领域的各类可评分任务，生成的软件性能超越了科学家开发的最先进水平。

这种超人类性能的实现，源于系统能够在前所未有的规模上、彻底且不知疲倦地进行解决方案搜索，从而发现“沧海遗珠”式的高质量解决方案。

在生物信息学领域，这个新系统发现了40种用于单细胞数据分析的新方法，在公开排行榜上超越了人类专家开发的最顶尖方法。

在地理空间分析方法上，系统开发出的三个新方法在DLRSD基准测试上显著优于近期学术论文报道的结果，mIoU指标均突破0.80大关。

在神经科学领域，斑马鱼活动预测基准（ZAPBench）上，该系统的解决方案有效地利用了跨神经元信息来生成预测，虽然没有超过表现最好的视频模型，但它与时序基线模型相比仍然具有竞争力，并且在训练速度上比表现最佳的视频模型快几个数量级。

（这个基准Y轴越低越好）

此外，在流行病学、时间序列预测、数值分析领域，新系统都能取得和人类顶级方法相当、甚至超越人类的结果。

总而言之，研究团队开发了一种新方法：把基于树搜索的代码变异系统和整合复杂研究思路的能力相结合。

这些研究思路可以来自已发表的论文、研究智能体，也可以是LLM已有思路和方案的组合。

网友评价：这种新方法正在为未来的AI创造更好的算法。

但同样的，问题也随之而来：把科学研究的权限交给AI真的合适么？

顶尖的AI研究员也像我们一样使用提示

有细心的网友发现，在这篇论文里，研究人员使用的提示词和我们也没什么差别：

请创建一个算法，利用两种策略的优点，创建一个真正出色的混合策略，并且得分要高于任何一种单独的策略！！

全都用的都是大写字母，和中文里疯狂敲感叹号没什么差别。

网友笑评：就像答辩的前一周，简直火烧眉毛了。

也有网友表示这是一个很好的现象。它证明好结果并不总是需要复杂的指令，能够清晰表达需求就足够有效。

创造力才是进步的核心。

参考链接：
[1]https://x.com/arankomatsuzaki/status/1965253577221587218
[2]https://x.com/deedydas/status/1965468238483235015
[3]https://google-research.github.io/score/

2025 年 9 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

可评分任务在科学中无处不在

顶尖的AI研究员也像我们一样使用提示

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

8块钱跑通一次强化学习全流程，潞晨云重塑微调赛道：1名算法工程师=1支Infra团队

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

8块钱跑通一次强化学习全流程，潞晨云重塑微调赛道：1名算法工程师=1支Infra团队

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享