实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

607次阅读
没有评论

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

带图推理表现优秀

号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何?

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

就在发布后的几小时内,网友们的第一波实测已新鲜出炉。

最强推理模型o3,即使遇上首位全职提示词工程师Riley Goodside的“刻意刁难”,也顺利过关:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

可以看到,面对藏在一堆玩具里的手绘图表,它也能通过图像识别和推理能力正确解答。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

o4-mini作为一款专为快速、经济高效的推理而优化的小模型,在数学能力方面堪称强悍——

用时2分55秒,解决了最新的欧拉问题,并且该网友强调:

至今只有15个人能够在30分钟内解决它。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

与此同时,OpenAI内部技术人员也表示,o3的出现让他第一次萌生了将模型称为通用人工智能AGI)的念头。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

眼见气氛都烘托到这儿了,那我们还不得赶紧看看更多实测效果(doge)。

网友实测o3/o4-mini

首次带图深度思考

首先,官方提到,o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型——

这意味着,它们可以基于图像展开思考

比如有人随手上传一张照片,让o3来判断拍摄时间和地点,而且要求能具体到地图上的某一个点。

结果令这位小哥惊讶的是,其答案和实际情况之间的误差非常小:

地点仅相差1000英尺(约305米),时间仅相差2分钟。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

更有意思的是,假如一张图上的小字看不清,通过扒思维链还能发现——o3甚至会自己“偷偷放大”。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

难怪在针对复杂多模态谜题的EnigmaEva测试基准中,o3能拿下SOTA。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

不过值得注意的是,据自称OpenAI员工的网友爆料,虽然基准测试结果存在差异,但o4-mini实际上是比o3更好的视觉模型。

该网友甚至直接建议大家:

在任何涉及视觉的任务中使用o4-mini-high而不是o3。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

巧合的是,在大多需要计算复杂数学题的带图测试中,大家竟默契选择了o4-mini而非o3。

除了一开头提到的解答欧拉问题的例子,o4-mini也被用来解读技术图纸。

该网友表示,对于这种大多AI都很难搞定的难题,它一次就成功了:

o4 mini(high)能够分析该部件的尺寸并准确计算出正确体积。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

编程能力

其次,两个新模型这次在编程能力上都有一定程度升级,测试结果表明:

其中o3 High取代谷歌Gemini-2.5,拿下编程第一。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

顺带OpenAI这次还开源了一个本地代码智能体Codex CLI——

它是一种聊天驱动的开发方式 ,能够理解并执行本地代码库,兼容所有OpenAI模型,包括刚刚发布的o3、o4-mini和GPT-4.1。

宾大沃顿商学院教授Ethan Mollick,这次直接利用o3的推理+编程能力制作了一个小短片:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

从完整制作过程来看,这里还同步考察了o3调用各项工具的能力

  • 第一步:理解需求;
  • 第二步:使用编程库生成帧,并将这些帧组合成一个视频文件;
  • 第三步:使用Python的PIL库(Pillow)来处理图像,使用imageio库来创建视频文件;
  • 第四步:生成帧;
  • ……
实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

最后我们也简单实测了一把,重点考察一下o3和o4-mini的推理能力。

比如让它们分别帮忙看看“手相”,o3的结果如下:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

o4-mini:

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

可以看到,两个模型对人物性格特征的判断大致相似,不过o3还额外给了一些提示建议。

p.s. 原图为AI生成,大家感兴趣可以自己试试~

One More Thing

有趣的是,有网友在实测o3的过程中还发现了一个现象:

o系列模型比GPT系列模型更容易错误地声称使用了代码工具

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

为此他们还专门写了一篇博客,其中揭露了:o3经常编造其为满足用户请求而采取的行动,并在用户质疑时详细地为这些编造进行辩解。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

就像下面这样,模型声称它在笔记本电脑上运行了实际并不存在的代码。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

而且通过进一步研究发现,这些伪造行为包括下面这些:

1、错误地声称执行代码,声称“我本地运行了这个”或“运行它产生了”后面跟着特定输出,而模型没有能力执行Python或其他编程语言;

2、编造详细的计算结果,包括特定的数值、统计数据和加密哈希值,表现为它们是实际执行输出而不是估计或示例;

3、……

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

同时,他们也初步提出了造成这一现象的可能原因:

首先就是模型幻觉和奖励黑客攻击,他们表示这些问题在o系列模型中尤为普遍。

另外,使用基于结果的强化学习可能会导致模型盲目猜测,并且某些行为(如模拟代码工具)可能会在某些任务上提高准确性,但在其他任务上造成混淆。

最后就是,o系列模型在处理连续对话时有一个限制,它们无法访问之前的推理过程,这可能导致模型在回答问题时出现不准确或不一致的情况。

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

顺便一提,即日起,ChatGPT的Plus、Pro会员以及Team用户,都能直接体验o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high则已悄然下架。

你怎么看OpenAI这次发布的o3和o4-mini?

博客:
https://transluce.org/investigating-o3-truthfulness

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...