GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

640次阅读
没有评论

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

GPT-4.5 Preview将于2025年7月14日下架

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

4.1与4.5孰大?OpenAI刚刚给出答案:

发布GPT-4.1,比GPT-4.5强的那种。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

新模型系列更新,一共带来三个版本:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano——

与通常中杯大杯超大杯的设置不同,这回翻译过来,是中杯、小杯、超小杯。

OpenAI表示,4.1系列是API专供,不过列位非开发者先别急哈,人家也补充了,在ChatGPT里,4.1的能力将主要通过“融入最新版本的GPT-4o”体现。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

能力方面,总结起来4.1系列纸面上最突出的优势有两点:

长上下文,3个型号均拥有100万token上下文窗口;

性价比,用内部老哥的说法就是:

现在你可以用4%的价格,畅享GPT-4o模型品质。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比
GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

OpenAI还表示,GPT-4.1系列会在API里取代GPT-4.5 Preview,后者将于今年(2025年)7月14日下架。

GPT-4.1:主打性价比

展开来看,OpenAI整体上是把GPT-4.1和GPT-4o拿来对比的。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

以延迟为横轴,以智能为纵轴,可以看到,GPT-4.1比GPT-4o强了一丢丢,而4.1 mini则超出了4o mini一大截。

定量比较的结果是,编码方面,GPT-4.1在衡量真实世界软件工程技能的SWE-bench Verified上得分为54.6%,比GPT-4o的分数提高了21.4%,比GPT-4.5强了26.6%

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

指令遵循方面,在MultiChallenge基准中,GPT-4.1得分38.3%,而GPT-4o的得分是27.8%

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

长上下文方面,在多模态长下文理解基准Video-MME上,GPT-4.1刷新SOTA,在长篇无字幕类别中得分72.0%,比GPT-4o高了6.7%

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

值得注意的是,GPT-4.1 mini在多项基准测试中超过了GPT-4o。

比如在智能评估基准MMLU上,GPT-4.1 mini的得分为87.5%,超过了GPT-4o的85.7%,同时延迟降低一半,成本降低83%

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

GPT-4.1 nano则被定位为OpenAI“目前速度最快、成本最低”的模型。并且在部分测试中有超出GPT-4o mini的表现。

编码能力

OpenAI着重强调了GPT-4.1的编码能力。除了在各种编程任务上都超过GPT-4o,OpenAI还演示了其在前端编程方面的实际优势:

能够创建功能更强大、更美观的Web应用。

人类评分的结果显示,在80%的对比测试中,GPT-4.1的网站都比GPT-4o的网站更受欢迎。

比如给出同一段提示词,GPT-4o生成的网站长这样:

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

而4.1的结果明显更美观:

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

手快的网友则已经搞出了大家更想看的——小球测试。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

BTW,OpenAI提到,GPT-4.1会在API里取代GPT-4.5,GPT-4.5 Preview将在3个月后(2025年7月14日)彻底关闭,但这位老哥表示:我还是更喜欢4.5啊啊啊。

不过,老哥也坦承:4.5虽好,但4.1确实便宜太多啦(30倍价差)。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

百万长上下文

再来看一眼长上下文方面,GPT-4.1的具体表现。

大海捞针实验中,面对100万token上下文检索,3个型号均能100%过关。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

OpenAI还开源了一个新的评估平台OpenAI-MRCR,以测试模型检索和理解多条信息、并理解信息之间相互关系的能力。也就是说更接近实际应用中,大家对长上下文的真实需求。

结果如下:

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比
GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比
GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

还发布了一个用于评估多跳上下文推理的数据集Graphwalks。所谓多跳,即在长上下文中进行多次逻辑跳跃,比如编写代码时在多个文件之间跳转。

在这个基准上,GPT-4.1与o1性能相当,轻松击败了GPT-4o。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

性价比仍不如DeepSeek R1

价格方面,相对于自家贵得要命的模型,GPT-4.1系列无疑是便宜的。

尤其是对比要被替代的GPT-4.5 Preview,2刀/百万tokens vs 75刀/百万tokens,价格属于大砍一刀只剩零头了。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

但精明的网友们发现,还是比不上DeepSeek R1:

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

△图源:x@bongrandp

One More Thing

以上,你觉得GPT-4.1如何?

反正这个命名方式确实是蛮值得吐槽的。

但没准儿,OpenAI的意思是…4.10>4.5?

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

至少奥特曼本尊有被说服到(doge)。

他还自嘲了一波:

我们能不能在今天夏天之前搞定我们的模型命名?在此之前每个人都可以再花几个月时间来取消我们(我们活该)。

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

参考链接:
https://openai.com/index/gpt-4-1/

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...