OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

744次阅读
没有评论

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

但不是完整版

梦晨 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,OpenAI把o3-mini的推理思维链公开了。

从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

评论区网友纷纷:让我们谢谢DeepSeek。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

在官方展示的栗子中,可以看到o3-mini的内心戏不少,还会模仿用户提问使用表情包。

用户的提问是“为什么今天不少星期五”

o3-mini认为这是一个幽默的评论,并认为自己也应该给出机智的回答,使用蔡勒公式计算当天确实不是星期五后,对闰年的特殊情况做了二次检查。

最后回答的中,调侃了是日历规定今天是星期四,并安慰用户“忍耐一下,明天就离周未更近了!”

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

那么作为“同行”,DeepSeek-R1如何评价o3-mini的思维过程呢?

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

在这个案例中,AI声称使用了蔡勒公式但没有给出计算过程的现象引起了很多人警觉。

不少用户怀疑这仍然是事后对AI思维过程的再总结,而不是原始数据。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

实际上在最近的“回应一切”活动中,OpenAI首席产品官Kevin Weil也暗示了这点:

……展示完整思想链会被竞争对手蒸馏,但我们也知道人们(至少是资深用户)想要它,因此我们会找到正确的方法来平衡它。”

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

对此,开发者Mckay Wrigley补充了一个观点:“我担心经过总结的思维链实际上比没有思维链更差”。

真正的思维链相当于prompt的调试器,有助于我们引导矫正模型。

经过总结的思维链增加了迷惑性并且可能额外添加错误,让模型难以被调试。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

但不管怎么说,既然公开了,现在免费用户也能一窥o3-mini的CoT,大家还是敞开玩了起来。

o3-mini思维链首批实测

OpenAI多模态Agent的研究员,首先亮出了自己的玩耍方法,让o3-mini玩井字棋游戏——就是在3*3格子上用O和X连线那个。

输入Prompt

你正在玩井字棋,你是O。到目前为止,X已经在左上角和右下角玩过,你已经在中间玩过。下一步的最优策略是什么?只用你的答案和棋盘图回答。

然后o3-mini就开始噼里啪啦思考。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

这位OpenAI员工非常直言不讳,表示o3-mini是第一个回答这个游戏的大模型。

But还有一句,“虽然o3-mini的CoT过程有点不靠谱,但你看右边的图,结尾它的弄清楚了的”。笑不活了,这里必须要送上一个手动狗头。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

然后是每个大模型都逃不过的经典测试题:数strawberry里面的“r”的数量。

但网友已经和模型一样进阶了,问的不是strawberry里面到底有几个某字母,而是:

为啥AI大模型,数strawberry里面有几个“r”,它就那么费劲呢???

我们认真观摩了它的思考过程,o3-mini承认“乍一看,计算strawberry中‘r’的数量对人类来说似乎是一个微不足道的任务,但对于许多AI语言模型来说,这可能是一个惊人的挑战”。

然后它从四个角度来思考和推理这个现象发生的原因,分别是:

  • 用自然语言而不是算法训练
  • Tokenization问题
  • 迭代推理的缺失
  • 对模式识别的依赖

8秒过后,o3-mini给出总结:

因为AI大模型本质上不是为精确、分步骤的算法操作而设计的,它们的设计和训练更多地侧重于根据上下文预测和生成文本,而不是执行精确的算术或系统计数。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

当然,o3-mini也不是万能的。

推特有网友表示,他探问了o3关于私有CoT的事情,但听君一番思考推理,如听一番思考推理,没有丝毫进展。

最开始,o3-mini思考过程还蛮有逻辑,从不同种类的“内心叙事”、可解释性和实用价值等方面分析,表示展现完整的CoT过程程似乎有助于“扎根”社会的理解并促进更好的认知实践,但现实更为复杂,毕竟AI大模型和人类的认知还没有完全对齐。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

但随着网友的追问,o3-mini的思维链就崩了(?),急得他团团转,中间一度打开DeepSeek-R1来帮忙。

他放上了整整12张图,显示最后o3-mini思维了半天,给出了一个令人心碎的回答:

对不起吼,但我真的帮不了你一点。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

除此之外,还有网友提出了质疑,觉得OpenAI公开的不是o3-mini原始的CoT。

有几个原因,其中一个是它(CoT过程)真的显示得很慢。

而如果是原始的o3-mini非常快,讲道理推理的生成速度应该比现在呈现的快得多。

他继续罗列自己之所以怀疑的证据,比如同一个问题,o3-mini-high只有1384个字符,而o1-preview生成了16577个字符。

“这只有两种可能,一是o3-mini-high比o1-preview高效得多;二是o3-mini的CoT不是原始版本。”

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

One More Thing

想对上面这位推特网友说,Bingo!

根据TechCrunch消息,OpenAI发言人确认了这次公开的不是原始思维链,并且给出两个理由:

  • 对原始思维链做后处理,可以消除任何不安全的内容,并简化任何复杂的想法。
  • 使非英语用户获得母语的思想链,有更友好的体验。

这样一来,最近被大量吐槽的o3-mini使用中文思考的问题,也就不存在了。

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek
OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

参考链接:
[1]https://techcrunch.com/2025/02/06/openai-now-reveals-more-of-its-o3-mini-models-thought-process/
[2]https://x.com/polynoamial/status/1887628222042677387
[3]https://x.com/pigeon__s/status/1887619637099249884
[4]https://x.com/thegenioo/status/1887617601016385840
[5]https://x.com/ryunuck/status/1887527365435105593

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 2 月
 12
3456789
10111213141516
17181920212223
2425262728  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...