中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

572次阅读
没有评论

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

优于目前所有已知COT推理模型

得分比第二名翻倍,成本却仅为1/20?!

o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

根据ARC Prize官方介绍,本轮测试得出的关键结论如下:

  • o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;
  • o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;
  • 在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%
中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

按照最新ARC测试,中杯o3堪称目前OpenAI所有模型中的“性价比之王”

不过值得注意的是,相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型,最新成绩可谓“大幅缩水”。

当时o3在低推理能力设置下(Low)得分高达75.7%,并且让模型推理更长时间后,其得分更是首次超越人类(85%)飙升至87.5%。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

那么问题来了,为何短短几个月过去,o3模型在ARC测试上的得分差异明显呢?

原来前后两个模型虽然名称一样,但实际并非相同的模型

OpenAI当下最新的o3,已针对聊天和产品应用进行了微调。

△图源:ARC Prize官网

甚至,OpenAI研究员们也强调,最新发布的o3并未专门针对ARC-AGI测试进行训练。

也就是说,中杯o3第一次挑战ARC难题就取得了好成绩。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20
中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

宾大沃顿商学院教授Ethan Mollick更是直言:

现在有更多的证据表明, o3代表着一次重大进步。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

与此同时,时代杂志发表的一篇独家文章表示,o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%,相比之下博士级人类专家的准确率仅为22.1%。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

中杯o3 ARC-AGI测试成绩出炉

ARC-AGI是一项旨在评判大模型的“智力”,或者说“AGI能力”的基准测试。

里面包含了一系列拼图问题,要求AI从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

正如开头所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后,ARC官方感受到了进一步更新的紧迫性。

于是在2024年3月,他们上新了ARC-AGI-2版本,核心目标是测试模型能否高效地获取超出其训练数据的新技能。

具体而言,在ARC-AGI-1基础之上,官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务,难度再次大升级。

正是基于以上两个测试基准,在OpenAI最新上线了o3和o4-mini之后,ARC又重新进行了测试。

除了中杯o3取得的好成绩,更多测试结果如下:

首先是o3 (high),ARC官方自称耗费超过5万美元,最终仍未获得o3 (high)的完整测试结论。

理由是,在高推理能力设置下,模型在大多数情况下均无法响应或超时,最后只有不到一半的任务返回了结果。

不过参与审查的Mike Knoop表示,建议默认使用o3 (high)设置,除非遇到超时才切换到Medium选项。

同时他认为,虽然中杯o3的准确率远低于o3-preview(去年12月的版本),但毫无疑问o3整体在准确率和成本优化方面做得非常出色。

如今,你在其他任何地方都买不到o3级别的AI推理能力。

一言以蔽之,本轮测试结果表明,中杯o3在继承o3-preview大部分新功能的前提下,成本有了大幅下降。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

除此之外,ARC官方还得出了三个关键发现:

1、早期响应准确率更高:模型越早返回的任务,准确率越高。而那些耗时更长(无论是运行时间还是token使用量)的任务,失败的可能性更大。

2、高级推理可能效率低下:在相同任务上比较中杯o3和o3 (high)时,发现后者始终使用更多token来得出相同的答案。

3、每秒token数的最小变化:在o系列模型中,不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

One More Thing

顺带一提,ARC官方早前还测试过DeepSeek-R1。

最终结果是,在ARC-AGI-1基准上,DeepSeek-R1得分为15.8%,远低于o3模型。

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

你怎么看o3的新测试?

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...