谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

889次阅读
没有评论

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

可在Google AI Studio在线体验

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

紧跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。

作为更注重效率的Flash,在大模型竞技场上排名并列第二,第一是自家的Gemini 2.5 Pro。

这样的表现,让Gemini 2.5 Flash的性价比直接拉满。

而且还是一款混合推理模型,可以自由设定思考深度,帮助预算不足的用户进一步控制推理成本。

目前,preview版本(不同于Gemini网页版中的版本)已在Google AI Studio和Vertex AI的 API中上线。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

主打性价比,思考深度自由调控

在大模型竞技场上,经过3000多轮对战,Gemini 2.5 Flash获得了1392分的成绩,与Grok-3、GPT-4.5等模型并列第二。

综合成绩仅次于自家的Pro版,这样看来在竞技场中战胜谷歌的只有谷歌了。谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

并且在编程、复杂提示和长文本三个子榜单中,都和Pro版并列第一

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

在大模型竞技场推出的WebDev榜单里,Gemini 2.5 Flash位列第七,超过了前一代(2.0)的Pro版本。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

此外谷歌还展示了Gemini 2.5 Flash在一系列高难度数据集上的表现。

其中包括由1000多名学者提出的“人类最后的考试”,这套测试集发布时没有任何一个模型得分超过10%,现在Gemini 2.5 Flash的成绩是12.1%。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

作为Flash版本,Gemini 2.5 Flash在谷歌自家的模型中,是至今性价比最高的版本。

其价格为0.15/0.6/3.5美元每百万输入/输出/推理Token,和o4-mini相比便宜了不少。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

实际上,如果按照输入输出3:1的比例计算,在大模型竞技场1400分附近,Gemini 2.5 Flash是最便宜的一款模型。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

△请注意横轴数字非单调下降

另外对于价格相对较高的推理过程,Gemini 2.5 Flash支持自由深度控制(甚至完全关闭),可以帮助预算不足的用户节约成本。

如果不进行设置,模型也会根据prompt自己判断适宜的思考深度,避免在简单的问题上过度思考,从而平衡成本。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

o4-mini的竞争者?

在HackerNews上,Gemini 2.5 Flash引发了热烈的讨论。

有人认为,谷歌不搞炒作,但实际上性价比非常高,谷歌正在赢得人工智能竞赛。

也有人觉得,便宜是便宜,但是模型有时候会犯懒,不过这也在预料之中。

当然,实际应用还是要看具体任务,不过可以确定的是,Gemini 2.5 Flash的性价比已经获得了部分人的认可。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

另外由于Gemini的Flash版本和OpenAI的mini类似,再加上上线时间邻近,Gemini 2.5 Flash也被视为o4-mini的竞争者。

不过从谷歌官方发布的成绩单上看,Gemini 2.5 Flash在一些难度较高的测试集中,表现是要稍逊于o4-mini的。

但如果考虑价格,这样的差距似乎可以接受,而且实际任务当中,也不总是需要模型能够应付这些最难的问题。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

那么,在实际环境当中,Gemini 2.5 Flash的表现又如何呢?首先看看编程能力。

先安排一下著名的小球测试变体——一个大五边形中包含了三个缺一边的小五边形,之间互不交叉,小球在其中按照物理规律运动。

五边形的部分Gemini 2.5 Flash,正确绘制出来了,但对于小球则是完全已读乱回,经过了反复调整之后依然翻车。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

再看o4-mini,运行结果符合提示词要求,并且代码更加精简,仅128行,而Gemini版本超过了500行。

这一轮,o4-mini胜。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

再看数据分析能力。

我们找来了最近某班次航班的飞行记录,包含了起飞到降落过程中各时间点的位置、高度、速度、航向等信息,一共有1700余个数据点。

给出的任务则是绘制出高度和速度随时间变化的折线图,并且涉及到了时区和计量单位的换算(原始数据中时间为UTC时间、高度为英尺、速度为节,需要换算成北京时间、高度单位为米、速度单位为公里每小时)。

虽然我们上传了数据文件,但一开始Gemini没有选择外挂,而是把数据全都写进了Python代码,导致代码非常冗长。

经过提示之后,Gemini对代码进行了改进,得到了正确的图像。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

o4-mini这边,虽然结果也对,但是没有考虑清楚坐标轴文本的长度,导致横轴上所有标签都挤成一团。

而且相比之下,Gemini的版本还带有网格线,能够更清晰地看出各点对应的大致数值。

这一轮,Gemini胜。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

最后一轮,来看下两款模型的多模态理解能力。

这是英伟达最近一个月的股票形势图,我们让两款模型分别分析一下最佳的入手时机。

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

它们都从图中正确发现了最低点和对应的时间,至于回答质量,还是直接看他们的输出结果:

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

总的来说,如果不考虑价格,Gemini 2.5 Flash确实和o4-mini比还有些不尽如人意,但落地中考虑性价比,可能综合竞争力就体现出来了

参考链接:
https://developers.googleblog.com/en/start-building-with-gemini-25-flash

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...