苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

186次阅读
没有评论

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

5个ICLR审稿人谁也没看出来

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

大无语事件天天有,今天特别多——

AI大模型公司阶跃星辰的研究员,自曝被苹果挂在arXiv上的论文,狠狠坑了一把。

自己去反馈问题,对方简单回了两句就把issue关了;直到自己留下公开评论,对方才撤稿下架代码了。

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

别着急,我们先来梗概一下故事线:

这个月月初,阶跃研究员Lei Yang被同事安利了一篇arXiv上苹果出品的论文(该论文也在投ICLR 2026),论文中提出的benchmark和Lei Yang最近做的研究非常契合。

他超级开心,马上停下手头的工作,开始适配这个benchmark。

结果这个声称“小模型全面超越GPT-5、数据经人工精心把控”的视觉benchmark,实际上却存在荒谬的官方代码bug和高达约30%的GT(Ground Truth)错误率

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

看到这儿,你是不是已经觉得够离谱了?

不好意思了朋友们,这还不是最离谱的……后续的故事看得人脑子上一个问号接一个问号冒出来。

这场闹剧的荒诞程度,一步步升级,直到最终Lei Yang“公开把它喷撤稿了”。

总之看得围观的Reddit吃瓜网友连连摇头:

我们曾拥有BatchNorm、ResNet、Dropout、Transformer这些革命性成果。
但到了大模型时代看起来真的是一团糟。

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

好了,咱们一起来详细看看这个大无语事件到底是怎么回事。

什么,GT的错误率可能高达30%?

这个荒诞故事涉及的论文名为《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。

它提出了一个基于谜题的视觉推理任务的诊断benmark。

巧的是,论文中提出的这个新benchmark,和Lei Yang近期的研究方向挺契合。

所以Lei Yang读完论文后,停下手头其他工作,开始着手适配。

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

没想到的是,熬了一个周末的通宵完成适配后,模型跑出来的点数极其之低,远低于预期。

“我非常沮丧。”Lei Yang又开始做各种检查和尝试。

这个阶段就开始出现不对劲了。Lei Yang发现了官方代码的bug

请求VLM的时候只用了图片路径的字符串,而不包含图片本身。

行,有bug咱们就修bug呗!

好家伙,修复这个bug后,模型的点数更低了……

这结果给Lei Yang干懵了。他在多个平台公开的小作文中写道:“由于结果过于离谱,我不得不做更多的验证工作,最终结论仍然是修了bug后点会更低。”

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

不得已,Lei Yang决定一条一条地分析错题,看看自家的模型是怎么做错的。

他抽查了前20道阶跃模型答错的题,结果令人大吃一惊:

  • 里面有6道题明确属于GT错误。
  • 从GT错误风格来看,很可能是模型自动生成的GT加上质检严重不足,导致GT包含大量幻觉。

这意味着,写进论文里、作者精心挑选用于展示的内容存在大问题。

他初步估算了一下,GT错误率可能高达30%

“我公开把它喷撤稿了”

于是,Lei Yang选择在GitHub上向作者反馈,指出其中的错误。

6天过后,论文作者简单回复了一下,然后直接关闭了issue

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

给Lei Yang气的呀,组织语言一通回击。

然而这件荒谬事件没有最离谱,只有更离谱——

ICLR review公布后,Lei Yang看了看该论文的5条reviews,居然没有任何一个审稿人发现GT质量问题,也没人发现论文中的例子存在幻觉和错误

(这里中插一下Openreview的直通车:https://openreview.net/forum?id=pS9jc2zxQz)

愤怒之下,他撰写了一份详尽的Public Comment。

内容大概是列举GT问题的实例,提醒ICLR审稿人和社区这个数据集质量堪忧、极易误导研究方向。

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

在这条评论最后,Lei Yang留了句话

我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力

Fine,看似是输出愤怒,实则是真没招了,顺便警醒一下后来人不要再被坑。

不少网友为Lei Yang的这个行为超棒的:

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

最后,在这条公开评论发表的第二天,论文作者就宣布撤稿,并删除了GitHub上的repo

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

原论文作者公开回应

这两天Lei Yang在多个平台分享自己的惨痛踩坑经历,希望通过分享这一遭遇,让更多研究者警觉起来,尤其不要盲目信任表面包装,哪怕是来自大公司。

今天上午,论文作者在小地瓜(没错就是那个平台)上现身回应了。

他首先声明自己这边已经和Lei Yang详细交流,也感谢和尊重推动学术社区进展的每个人。

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

我们梳理了一下论文作者的回应。

首先关于数据质量,作者承认审核不周

虽然当初对injected error(人为注入错误)的样本做了人工检查,但没有认真审核更关键的部分。

所以也就没有留意到GT解答思路由GPT自动转换成分步骤CoT时出现了幻觉,导致step label出现了问题。

这部分实质上承认了此次荒谬事件中最核心的问题,即自动构建数据时的质检严重不足。

其次说了说关于论文中example inference的事儿。

他解释称项目中的example inference代码是一个dummy示例,不是正式的演示代码。

在o3的输出例子中,是可以看到模型确实看到了图片的。

然后,他表示当时接收到Lei Yang的提醒后,修改了dummy代码,并且回复了Lei Yang。

最后他对自己当时直接关闭了issue感到非常抱歉。

“当时reopen并且回复了新提出的问题,下次也会一直开着直到问题全部解决。”

回应贴的最后一点是这么写的:

我们的目标包括这个benchmark的目的都是推进各个研究方向,在做数据时有不应出现的疏忽,但我们各自都是出于对这个方向的兴趣,利用业余时间在做这个项目,也在其中花费了大量时间精力为了推进这个小方向的发展。
我们会认真总结这次的经验教训,再接再厉。

苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班

参考链接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE 闻乐 2025-12-14 14:2...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026

交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026

交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026 西风 2025-12-13 12:5...
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了

半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了

半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了 鹭羽 2025-12-13 22:43:25 来源...
美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型 鹭羽 2025-12-13 22:41:00 来源:量子位 三连发:真实场景...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026 西风 2025-...