Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

694次阅读
没有评论

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

5年后能顶人类苦干一个月的工作

AI Agents(智能体)也有自己的“摩尔定律”了?!

就在最近,Nature报道了一项来自非营利研究机构METR的最新发现:

AI在完成长期任务方面的进步速度惊人,其时间跨度大约每七个月翻一番。

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

为了衡量Agent自动完成任务的能力变化,研究人员提出了“50%-任务完成时间跨度(50%-task-completion time horizon)”这一指标。

他们以50%任务成功率为基准,假设2019年AI达到这一目标所需时间对应人类需要的时间为10分钟,那么7个月后,其对应的人类完成任务时间则变成了20分钟。

换句话说,AI能够胜任越来越多人工耗时久的任务,能力逐渐更强。

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

2024年这一增长速度变得更快了,一些最新模型大约每三个月翻一番

按照预测,大约五年后,AI就能自动完成很多人类现在要花一个月才能完成的任务。

网友们纷纷表示,这下终于对AI进步神速有实感了!

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

提出“50%-任务完成时间跨度”指标

在METR的介绍中,他们将这一发现命名为“Moore’s Law for AI agents”,也就是“智能体摩尔定律”。

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

下面我们详细展开其研究方法。

整体而言,他们主要是让AI和一些专业人员在相似条件下尝试完成任务,然后测量人类所需要的时间,最终来比较AI成功率如何随着人类完成时间的长短而变化。

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

这第一步,研究团队选择了三个不同的任务套件来评估AI模型的能力:

  • 97个HCAST任务,涵盖软件工程、机器学习、网络安全和一般推理挑战的多样化任务集合,难度从几分钟到30小时;
  • 7个RE-Bench任务,由七个开放式的机器学习研究工程环境组成,每个需人类专家约8小时完成;
  • 66个SWAA任务,代表软件开发过程中的单个步骤操作,时长1秒到30秒。

接下来,为了量化评估AI模型的表现,团队招募了800多名软件工程、机器学习和网络安全领域的专业人员执行任务,并记录他们完成任务所需的时间。

据METR介绍,在这些任务中,人类完成时间从1秒到16小时不等。

这些时间被当作衡量任务难度的标准。

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

然后他们又评估了从2019年到2025年发布的13个前沿AI模型,包括GPT系列和o1、Sonnet 3.7等,通过在构建的任务套件上运行这些模型,并记录它们完成任务的成功率。

关键来了,随后他们引入了一个新的指标——50%任务完成时间跨度(50%-task-completion time horizon),即AI模型在50%的成功率下能够完成的任务的平均时间长度。

之所以选择50%这一成功率,主要是它对于数据分布的微小变化最为稳健

简单说,当数据的分布(即数据的特征、比例或趋势等)发生一些小的变化时,这个指标不会受到太大的影响,仍然能够保持相对稳定的表现。

论文作者之一Lawrence Chan表示:

如果你选择非常低或非常高的阈值,那么分别移除或增加一个成功或失败的任务,就会对你的估计值产生很大的影响。

利用这一指标,团队通过对AI模型在各个任务上的成功与失败数据进行逻辑回归分析,计算出每个模型的时间跨度,也就是模型完成任务成功率达到50%之时,对应的人类完成任务的时间。

(每个模型在每个任务上运行8次,记录成功率)

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

有了这些数据,团队最终绘制了模型自主性随时间呈指数变化的图表。

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

发现“AI智能体摩尔定律”

如上图所示,研究的主要发现是:

自2019年以来,AI模型的时间跨度呈现出指数级增长,每七个月左右翻一番。

为了验证研究结果的外部有效性,他们又进行了以下四个实验:

1、用2023-2025年数据回溯预测,验证趋势一致性;
2、对HCAST和RE-Bench任务基于16个 “混乱” 因素评级,分析任务混乱程度对模型性能的影响;3、在其他SWE-bench Verified数据集上应用相同方法,对比结果;4、在内部Pull Requests(PR)任务上测试模型性能,与人类基线对比。

最终,这一趋势得到了以上外部验证。

比如在第2个实验中,所谓的16个 “混乱(messy)” 因素是指现实任务比研究任务更难的方面,包括任务是否受到有限资源的限制、是否涉及实时协调或是否源自现实世界的环境。

每个任务都根据这些因素得到了一个 “混乱度(messiness score)” 分数。

研究人员发现,尽管AI模型在更加混乱的任务上(比如缺乏明确提示和反馈、需要AI主动去获取信息、任务条件和要求比较模糊等情况)的绝对性能较低,但另一方面其性能在稳步提升。

更有意思的是,不管任务的“混乱”程度如何,AI都是以相似的速度在提升。

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

再比如在SWE-bench Verified基准上的验证,他们也观察到了一个类似的指数级增长趋势。

不过由于标注时间的问题,该基准测试的时间跨度翻倍时间更短

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

总之,按照“智能体摩尔定律”进行预测,AI可能在2028年11月达到一个月的任务时间跨度;而在较为保守的估计下,这一目标可能在2031年2月实现。

METR团队认为,虽然研究还存在任务套件具有局限性、评估指标不完美、未来AI发展具有不确定性等需要完善的地方,但很确信这一指标每年有1~4倍的增长趋势

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

而结合现实中Manus智能体的走红,我们已经能够预见到智能体将迎来爆发。

Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍

论文:
https://arxiv.org/pdf/2503.14499

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...