AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%

389次阅读
没有评论

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%

最强AI也还差得远

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

长期以来,AGI都笼罩在“类人智能”的模糊表述中。

都说它像人一样聪明,那到底有多聪明呢?

图灵奖得主Yoshua Bengio联合Center for AI Safety、加州大学伯克利分校等机构的新作《A Definition of AGI》给AGI下了个可衡量的定义。

“AGI is an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.”

AGI是能匹配或超越受过良好教育成年人的认知广度(versatility )和熟练度( proficiency)的人工智能

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%

该定义包含两个关键维度:

  • 确定了参照系
  • 直接锚定“受过良好教育的成年人”,避免了“AGI是超人类智能”这类模糊表述,让评估有了具体标准。
  • 强调全面性
  • 不看AI在单一任务上的表现,而是要求它在多个核心认知领域(如推理、记忆、感知等)都达标,不能有严重的偏科。

研究团队设计了一套量化方法来评估当前AI离AGI的距离。

分数越高,离AGI越近

为了把这个标准落地,研究者参考了心理学里验证过的卡特尔-霍恩-卡罗尔(CHC)理论这个研究人类认知能力的经典模型。

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%

该模型将人类通用智力拆解为10个相互独立但又关联的核心认知领域,涵盖了从基础感知到高阶推理的完整认知链条,基于这10个领域,研究团队对人类传统认知测试题进行了AI适配改造

剔除依赖人类生理感知(如触觉测试)或特定场景(如驾驶场景测试)的题目,保留核心认知逻辑,形成了一套包含500余道题目的AGI评估题库。具体包括:

  1. 知识(K):主要测试常识、自然科学、社会科学、历史、文化等方面的知识储备。
  2. 读写(RW):考察阅读和写作能力,包括对文本的理解、语言表达、文字创作等。
  3. 数学(M):涉及数学计算、定量推理、数字概念的掌握等数学能力。
  4. 临场推理(R):即处理新颖问题、进行逻辑分析与抽象思维的能力,也就是流体推理能力。
  5. 工作记忆(WM):指短期信息的保持与实时加工能力。
  6. 长时记忆存储(MS):衡量AI系统将信息进行长期稳定存储的能力。
  7. 长时记忆提取(MR):考查AI能否从长期记忆中高效地提取所需信息。
  8. 视觉(V):包括图像识别、空间定位、视觉信息解读等视觉加工能力。
  9. 听觉(A):涉及声音识别、语音理解、听觉信息处理等听觉加工能力。
  10. 速度(S):主要评估AI快速处理简单认知任务的效率。

评估采用百分制,每个认知领域满分10分,系统总分达到100分即判定为达到AGI水平,分数越高代表离AGI的距离越近。

AI虽然进步快,但离AGI还很远

研究团队运用上述评估体系,对当前主流LLM进行了全面测试,结果既展现了AI的快速进步,也暴露了其与AGI的巨大差距。

从总分来看,2023年发布的GPT-4总分仅为27分,而2025年版GPT-5总分提升至58分.

两年间,分数增幅超过115%,反映出大模型在认知能力上的快速迭代。

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%

但从AGI的及格线100分来看,即使是GPT-5,也尚未突破半程线,甚至在长时记忆存储领域中拿了0分。

具体来说,当前AI与论文中定义的AGI更关键的差异体现在认知领域的不均衡性上。

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%

优势领域集中

据实验结果来看,当前AI的优势高度集中于知识储备与符号处理类领域

在知识(K)、读写(RW)、数学(M)三个领域表现突出,GPT-5在这三项的得分都超过了8。

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%△知识(K)领域评估
AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%△读写(RW)领域评估
AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%△数学(M)领域评估

这些优势的共性在于均围绕文本符号的理解与应用展开,是大模型在万亿级数据训练中形成的模式匹配能力的集中体现。

AI在依赖海量数据训练的任务中,在这些方面展现出了接近人类成年人的水平。

核心短板显著

与集中的优势形成鲜明对比,实验暴露出AI在感知、记忆、推理等基础认知领域存在致命短板,并且这些短板无法通过单纯的扩大规模弥补。

在 “视觉(V)” 、 “听觉(A)”领域,大模型的表现堪称惨淡。

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%△视觉(V)领域评估
AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%△听觉(A)领域评估

GPT-4完全不具备图像识别与声音处理能力,即使GPT-5也仅能完成简单的猫犬分类、基础语音转文字,远无法实现人类级别的复杂场景解读与情感识别。

“长时记忆存储(MS)”与“提取(MR)”是另一致命缺陷,说明AI有健忘症。

AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%△长时记忆存储(MS)领域评估
AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%△长时记忆提取(MR)领域评估

无法实现信息的长期稳定存储,也就做不到对学习的内容灵活运用。

“伪全能” 的本质

部分大模型看似具备多任务处理能力,实则是通过技术手段掩盖短板

例如,部分模型通过扩大上下文窗口(如支持128k tokens的文本输入),假装具备长期记忆能力,但本质上仍是短期工作记忆的扩展,无法实现信息的长期存储与跨场景调用。

还有模型依赖联网搜索功能补充知识,看似无所不知,实则暴露了自身知识更新滞后、易产生幻觉的缺陷。

而这项研究的评估体系明确排除了外部工具的辅助,仅衡量AI系统的原生认知能力,使得这些伪全能表现无所遁形。

当然了,论文也明确指出,这套评估只看AI自身的认知硬实力,不管它能调用多少外部工具,也不看它能赚多少钱、替代多少工作,纯粹聚焦于智力本身

就算某个AI总分再高,只要像长期记忆这样的核心领域是零分,本质上还是有严重缺陷的“残次版”智能,离真正的AGI也还差得远。

这下,AGI有了可以衡量的定义,从概念到现实,还有多久呢?

论文地址:https://www.agidefinition.ai/paper.pdf
参考链接:https://x.com/DanHendrycks/status/1978828377269117007

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 10 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 量子位的朋友们 2025-12-20 13:06:52 来源:量...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板? 量子位的朋友们 2025-12-20 20:49:32 来源:量子位 谁能带来更...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板? 量子位的朋友们 2025-12-20 22:09:18 来源:量子位 2025年...
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...