悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

克雷西发自凹非寺
量子位 | 公众号 QbitAI

GTP-4o挑战悬赏八百万的超难数据集，实现SOTA！

数据集当中包含了各种类型的图形推理题目，被挑战发起者预言“大模型很难完成”。

结果短短一周之内，这一挑战就被一位博主Ryan Greenblatt完成了一半，准确率达50%；而此前的SOTA仅为34%。

针对自己的成果，Ryan发了一个表情包表示：

只要有更多的样本，大模型的能力就能获得提升。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

成果发布后，Ryan所在机构CEO Bucket Shlegeris称赞他是世界级的语言模型推理专家，用了很多精致技巧让模型的表现提高到了这样的程度。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

要知道，挑战的发起方此前开出了最高50万美元（约360万人民币）、总计110万美元（约798万人民币）的巨额赏金。

但有人预计，有60%的概率在未来一年内就会有人获得奖项，甚至现有的模型加上一些提示技巧就能实现。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

这也与Ryan的想法不谋而合，不过Ryan估计的概率更高些，是70%。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

然而按照规则，想得奖的话，方法必须是开源的，而Ryan用的是GPT，所以可能与奖金无缘了。

不过，Ryan用到的的方法，还是值得我们了解一下的。

让GPT编写海量程序

Ryan挑战的测试集名为ARC-AGI，题目带有色块的网格阵列，大模型需要观察每道题目中3个输入/输出示例，然后根据规律填充新的空白网格。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

当然，实际测试中的问题，会比上面的例子复杂得多。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

首先，Ryan根据网格大小是否发生变化，把测试集中的问题细分成了两类。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

对于每个问题，Ryan都会把网格以图像和ASCII字符两种方式输入给GPT-4o。

其中，ASCII字符包括以下内容：

每个位置的颜色和坐标
每种颜色出现的所有位置坐标，并按连通分量分组
将连通分量（形状）按其左上角位置归一化到原点后的表示
输入输出网格之间不同颜色的变化及其位置

对于后面需要修正的程序，还会把实际输出与期望输出的的差异（ASCII字符形式）一并输入给模型。

根据前面不同的分类，Ryan会用不同的少样本提示词指示GPT-4o，提示词中包含这三项指令：

分步推理和解释每个例子中的转换规则
思考如何将推理得到的规则实现为代码
实际编写对应的Python代码

对每个问题，Ryan会从GPT-4o的回答中采样约5000个完成结果，对程序进行筛选与修正。

采样得到的完成结果首先会被转化为Python程序并在测试用例上运行，然后选出在所有例子上都正确的程序。

接着，在剩余的程序中，Ryan设计了一个汉明距离度量方式，并据此从中选出最有希望的12个。

对这12个程序，Ryan会让GPT-4o尝试修正其中的错误，首先用少样本提示词要求模型获取实际输出与期望输出差异，然后对每个待修正的程序再采样约3000个完成结果。

最后，Ryan会选择经过筛选和修正后能正确解决所有例子的3个程序，如果符合要求的程序少于3个，则会使用一些启发式规则选出剩余的程序。

实际操作中，Ryan使用了多个不同的少样本提示词分别进行了上述过程，获得了多组候选程序，并在所有组的正确程序中进行多数投票，选出出现频率最高的3个作为最终结果。

此外，Ryan还使用了一些额外的策略，比如在训练集和测试集的不相交子集上进行迭代优化，通过局部搜索等方法寻找更好的提示词等

同时，他还引入了一些额外的规则，比如拒绝输出与输入完全相同的解，从而更好地筛选出有用的程序。

最终，Ryan的方法在ARC-AGI公开测试集上达到了50%的准确率，成为了新的SOTA，此前的SOTA为34%，而在训练集（难度低于测试集）的一个子集上，该方法达到了72%的准确率。

不过Ryan同时指出，GPT-4o的视觉能力依然有待提高，同时还存在编程、长上下文和指令遵循能力不足，以及缓存空间不够等问题，如果这些问题能够被解决，将显著提高Ryan所用方法的效果。

那么，ARC Prize究竟是一项怎样的挑战？

85%准确率可瓜分360万奖金

这项ARC Prize，由零代码SaaS平台Zapier联创Mike Knoop和谷歌资深工程师François Chollet发起并出资。

项目顾问则包括GitHub前CEO Nat Friedman、前Y-Combinator合伙人Daniel Gross，以及瑞士企业家Pascal Kaufmann。

官方指出，现有的大多数AI基准测试都在衡量模型的“技能”，但“技能”并不等于“智力”，并表示“智力”指的是有效获取新技能的能力。他们认为，“智力”型的任务对人类很简单，但对于AI来说很难实现。

为此，活动方选择了一套测试数据集，也就是Ryan挑战的ARC-AGI，旨在评判大模型的“智力”，或者说“AGI能力”，并激发人们对于新算法和架构的探索，而不是单纯增加数据规模。

该数据集出现的时间是在2019年，去年有300个团队进行了尝试，今年的挑战则于6月11日开启。

按照规则，参赛者需要在这个数据集上取得更高的准确率，同时提交者必须将自己编写的代码完全开源，使用的第三方工具也至少要有允许共享的开源许可。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

在Ryan之前，已经提交的方案中最高的准确率为34%，而官方设置的“成功”标准，也是他们预估的人类水平，为85%。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

大赛一共设置了110万美元的奖金，目前已公布标准的奖项共计60万美元，还有50万美元的评奖方式等待官宣。

在已公布的60万美元中，有50万美元（约360万人民币）的大奖，获奖队伍不超过五个，奖给最先在ARC-AGI上达到85%准确率的团队。

还有高分奖五名，将获得5000-25000美元不等的奖励，共计5万美元。

此外还有一项论文奖，会颁发给能够帮助人们了解如何在ARC-AGI上实现更好表现的团队，冠亚军奖分别获得45000和5000美元。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

按照官方赛程，提交的截止日期为11月10日，获奖名单则会在12月3日公布，对这项挑战感兴趣的话，不妨试一试。

参考链接：
[1]https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt
[2]https://arcprize.org/
[3]https://x.com/liron/status/1800643034263990432

2024 年 6 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

让GPT编写海量程序

85%准确率可瓜分360万奖金

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex