o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

452次阅读
没有评论

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

各大评测榜最新排名也出炉了

西风 发自 凹非寺

量子位 | 公众号 QbitAI

OpenAI“最新最强版”推理模型o3-pro,实际推理能力到底有多强?

全球首位全职提示工程师Riley Goodside来给它上难度:

说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时,每个单词最后一个字母连起来看,也能对应这首歌名

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。

经Sabrina Carpenter实测,o3只能做对个大概,通常只能把最后几个字母凑对。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

该测试引来OpenAI前AGI Readiness团队负责人Miles Brundage的转发关注。

虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。

PS:苹果前几天发了个新研究,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的“模式匹配”,所谓思考只是一种假象。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

除了网友实测外,各大评测榜单已陆续同步更新排名。

总结来看,和官方给的测试结果略有不同。

官方测评中,o3-pro超越o3、o1-pro,成为当前最擅长编码的OpenAI模型。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

而在大模型权威榜单LiveBench上,o3-pro和o3编码平均得分几乎无差,o3-pro仅有0.07分的优势。

智能体编码平均得分方面,o3-pro甚至大比分落后于o3(31.67 vs 36.67)。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

亚马逊云科技&谷歌前高管Bindu Reddy表示:

主要是它在智能体这块不太行,工具使用也不咋擅长。

昨天的大新闻不是o3-pro ,而是o3降价了!!

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

另外,针对大模型长上下文理解的基准测试Fiction.LiveBench也放榜了。

o3-pro在较短上下文场景下表现很出色,较o3有所提升。

然鹅,192k超长上下文处理依然是Gemini 2.5 Pro占优势,Gemini 2.5 Pro得分90.6,而o3-pro仅得分65.6。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

让人困惑的是,在这个基准测试中,不管是o3-pro还是o3,在16k上下文中分数都下降了,到了32k,两个模型得分又回到了100。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

除此之外,苹果&SpaceX前工程师Ben Hylak之前分享o1使用心得,得到不少网友关注,连奥特曼、Brockman都转发了。

这次o3-pro他同样没放过,而且又被奥特曼翻了牌子。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

苹果&SpaceX前工程师分享使用心得

苹果&SpaceX前工程师Ben Hylak的分享,好似恰巧解释了o3-pro的官方测评和各大评测榜单结果有所出入的问题。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

Ben Hylak曾任SpaceX软件工程师、苹果VisionOS人机交互设计师,目前在创业为AI产品提供分析服务。

此前o1 pro推出满血$200/月版本时,Ben Hyla第一天就交了钱,整整测试了一天。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

结果体验很糟糕,很多人表示同感,但也有人强烈反对。Ben Hylak在与持不同观点人激烈讨论了一番后,意识到自己的使用方法完全错了。

我还在把o1当聊天模型来用,但o1已经不是聊天模型了。

后来,Ben Hylak从讨厌o1转变成了每天都在用它解决最重要的问题。这件事儿的反转,让Ben Hylak测试o3-pro更加用心。

他透露这次自己一周前就已经提前接触到了3-pro,o3-pro“以不同方式测试,实际体验会有所不同”。

从经常测评大模型的经验来看,Ben Hylak认为“模型能力的发挥高度依赖背景信息”,他表示自己目前使用o3关键就是:

不把它当聊天对象,而是当作报告生成器。给它背景信息、设定目标,然后让它自由发挥。

由此,要看出o3-pro的真正实力,得给它多得多的背景信息。然鹅,Ben Hylak手头的信息素材都快榨干了。于是,Ben Hylak换了种方法:

他和他的联合创始人Alexis花时间把他们在Raindrop所有历史会议记录、目标全翻出来,甚至录了语音备忘录,一股脑塞给o3-pro,让它做规划。

结果,被o3-pro惊艳到了:

它输出的计划精准踩中我们想要的点——目标数据、时间排期、优先级排序,连“必须砍哪些业务”都写得明明白白。

o3给出的计划合理、说得通;但o3-pro给出的计划足够具体、有依据,真真切切改变了我们对未来的思考方式。

这在评估中很难体现出来。

除此之外,Ben Hylak认为如今的模型在孤立环境下表现已然十分出色,简单测试难不倒它,真正的挑战在于将其融入社会。

这种融入主要体现在工具调用方面,即模型与人类、外部数据以及其它AI协作得如何

经测试,Ben Hylak表示o3-pro在这方面有了实实在在的提升——

“它在识别自身所处环境、准确说明可使用的工具、知晓何时需询问外部世界信息(而非假装自己掌握相关信息或权限 )以及为任务挑选合适工具等方面,表现都明显更优。”

下面是展示示例。Ben Hylak让o3-pro和o3做一个日历。

o3-pro显然能更好地理解其所处环境的边界,明确表示:

在这个聊天窗口中无法显示实时交互的HTML预览(我的环境仅支持纯文本和代码片段)

并且给出了要查看渲染后日历的详细步骤操作,还描述了用户将看到的视觉内容。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

相比之下,o3明明做不到还装能做,表示可以“创建日历小组件的实时交互预览”。

下面这个例子,Ben Hylak让模型找今年关于Borges的Substack文章。

o3-pro同样明确表示进行实时Substack查询所需的网页搜索工具在当前环境未启用,所以无法直接获取最新链接。

而o3表示搜索了,但没有找到2025年发布的Borges的Substack文章。

o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

Ben Hylak还发现,需要给o3-pro提供更多上下文,要是不提供足够的上下文,它会出现过度思考的情况。

它在分析方面超强,也很擅长借助工具做事,但自己直接动手做事就没那么在行。我觉得它会是个超棒的协调者。不过,有些ClickHouse SQL相关问题,o3处理得更好。实际效果因人而异。

o3-pro给Ben Hylak带来的体验与Claude Opus、Gemini 2.5 Pro相比,都不同。

Ben Hylak认为Claude Opus虽体量庞大,但没让他真切感受到这种“大”的独特价值;而o3-pro的输出更优,仿佛两者完全处于不同的竞争维度。

他继续补充道,OpenAI正沿着强化学习路径深挖(比如Deep Research、Codex项目),不只是教模型“怎么用工具”,更是教它们“思考何时该用工具”。

最后,Ben Hylak总结认为推理模型的Prompt技巧核心逻辑不变,之前他写的o1提示指南,现在依然适用o3-pro。

首先,“语境”是一切,就像给“饼干怪兽”喂饼干,精准投喂才有效,它是一种引导大语言模型激活“类记忆能力”的方式,但因为足够精准,所以效果拔群。

另外,系统提示的影响极大。如今模型的可塑性超强,那些能让模型“理解自身所处环境与目标”的LLM调教框架,能产生远超预期的价值。

参考链接:
[1]https://www.latent.space/p/o3-pro
[2]https://x.com/Miles_Brundage/status/1932889744306024815
[3]https://x.com/ficlive/status/1932588629768982751
[4]https://x.com/bindureddy/status/1932889892562088086

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...