中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

一水
2025-04-23
10:37:42

来源：量子位

优于目前所有已知COT推理模型

得分比第二名翻倍，成本却仅为1/20？！

o3中杯在超难推理任务ARC-AGI上的新成绩，属实又给众人带来了亿点点震撼。

中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

根据ARC Prize官方介绍，本轮测试得出的关键结论如下：

o3 (Medium) 在ARC-AGI-1上得分为57%，成本为1.5美元/任务，优于目前所有已知COT推理模型；
o4-mini（Medium）在ARC-AGI-1上得分为42%，成本为0.23美元/任务，准确率不足但成本优势明显；
在难度升级的ARC-AGI-2上，两种型号模型的准确率均未超过3%。

按照最新ARC测试，中杯o3堪称目前OpenAI所有模型中的“性价比之王”。

不过值得注意的是，相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型，最新成绩可谓“大幅缩水”。

当时o3在低推理能力设置下（Low）得分高达75.7%，并且让模型推理更长时间后，其得分更是首次超越人类（85%）飙升至87.5%。

那么问题来了，为何短短几个月过去，o3模型在ARC测试上的得分差异明显呢？

原来前后两个模型虽然名称一样，但实际并非相同的模型。

OpenAI当下最新的o3，已针对聊天和产品应用进行了微调。

△图源：ARC Prize官网

甚至，OpenAI研究员们也强调，最新发布的o3并未专门针对ARC-AGI测试进行训练。

也就是说，中杯o3第一次挑战ARC难题就取得了好成绩。

宾大沃顿商学院教授Ethan Mollick更是直言：

现在有更多的证据表明， o3代表着一次重大进步。

与此同时，时代杂志发表的一篇独家文章表示，o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%，相比之下博士级人类专家的准确率仅为22.1%。

中杯o3 ARC-AGI测试成绩出炉

ARC-AGI是一项旨在评判大模型的“智力”，或者说“AGI能力”的基准测试。

里面包含了一系列拼图问题，要求AI从不同颜色的方块中识别出视觉模式，并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。

正如开头所言，在ARC-AGI-1中，o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后，ARC官方感受到了进一步更新的紧迫性。

于是在2024年3月，他们上新了ARC-AGI-2版本，核心目标是测试模型能否高效地获取超出其训练数据的新技能。

具体而言，在ARC-AGI-1基础之上，官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务，难度再次大升级。

正是基于以上两个测试基准，在OpenAI最新上线了o3和o4-mini之后，ARC又重新进行了测试。

除了中杯o3取得的好成绩，更多测试结果如下：

首先是o3 (high)，ARC官方自称耗费超过5万美元，最终仍未获得o3 (high)的完整测试结论。

理由是，在高推理能力设置下，模型在大多数情况下均无法响应或超时，最后只有不到一半的任务返回了结果。

不过参与审查的Mike Knoop表示，建议默认使用o3 (high)设置，除非遇到超时才切换到Medium选项。

同时他认为，虽然中杯o3的准确率远低于o3-preview（去年12月的版本），但毫无疑问o3整体在准确率和成本优化方面做得非常出色。

如今，你在其他任何地方都买不到o3级别的AI推理能力。

一言以蔽之，本轮测试结果表明，中杯o3在继承o3-preview大部分新功能的前提下，成本有了大幅下降。

除此之外，ARC官方还得出了三个关键发现：

1、早期响应准确率更高：模型越早返回的任务，准确率越高。而那些耗时更长（无论是运行时间还是token使用量）的任务，失败的可能性更大。

2、高级推理可能效率低下：在相同任务上比较中杯o3和o3 (high)时，发现后者始终使用更多token来得出相同的答案。

3、每秒token数的最小变化：在o系列模型中，不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量（tok/s）高于中高版本。

One More Thing

顺带一提，ARC官方早前还测试过DeepSeek-R1。

最终结果是，在ARC-AGI-1基准上，DeepSeek-R1得分为15.8%，远低于o3模型。

你怎么看o3的新测试？

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

△图源：ARC Prize官网

中杯o3 ARC-AGI测试成绩出炉

One More Thing

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定