Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

516次阅读
没有评论

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

“人类最后的考试”成绩超越o3

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。

深夜,谷歌通过等多个账号同时官宣,Gemini 2.5 Pro再次推出新版本(0605)。

新版本在代码、推理等任务上的表现更上一层楼,在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

在大模型竞技场上,新版Gemini也超越了自己,Elo评分比上个月的版本提升了24分。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

谷歌CEO劈柴哥还发了一张AI合成的狮子照片,配文一个“Gemini”,暗示了新模型的实力。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

谷歌AI studio产品负责人Logan表示,这次的更新预计会成为Gemini 2.5 Pro的长期稳定版本。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

有意思的是,发布之大概10多个小时,Logan就进行了一波剧透,发了一条只有Gemini这一个词的推文。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

谷歌表示,Gemini APP中的模型将在今日更新为该版本,开发者版本也已在谷歌AI Studio和Vertex AI当中上新。

Gemini超越Gemini,登顶大模型竞技场

谷歌介绍,这次的0605版本基于I/O大会上展示的0506版本构建,预计将成为Gemini 2.5 Pro的正式稳定版。

Gemini 2.5 Pro最早是在3月25日发布了实验版本,4月4日更新了公开预览版,代号仍然是0325,再然后就是上个月的0506。

在“人类最后的考试”当中,0605的成绩达到了21.6%,领先了o3 1.3个百分点,超过了Claude 4 Opus的两倍。

这个数据集由1000多名学者共同构建,包含3000多道试题,覆盖各种学科,发布时没有任何模型准确率超过10%。

另外在GPQA上,0605的成绩也同样超过了几家主要竞争对手,并且单次尝试的准确率比Claude和Grok多次尝试还要高。

数学竞赛和LiveCodeBench编程上,0605表现稍逊于OpenAI家的模型,但0605在代码编辑能力(Aider Polyglot)上领先。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

长文本方面,0605在128k长度上的表现同样是几家中第一,并且还独一家支持1M长度。

0605拉开差距最明显的则是事实性,在FACTS Grounding测试中领先第二名超过10个百分点。

至于价格,Gemini比OpenAI o3、Claude 4 Opus和Grok 3都要来得便宜——

输入Token价格是o3的1/8,Claude 4 Opus的不到1/10、Grok 3的不到一半,输出Token则是o3的1/4、Claude的13%、Grok的2/3。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

在大模型竞技场上,0605则位列总分和所有子榜单的第一名。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

除了各种基于文本的能力,0605的视觉能力也拿下第一名,上个月的0506和OpenAI的o3与之并列。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

最后在WebDev上,0605也让Gemini重新回到了榜一的位置。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

此外,谷歌表示0605还基于用户对之前版本的反馈,对输出风格和结构进行了改进。

有DeepMind员工称,照这样下去,最多两年就能在所有Benchmark都取得满分。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

另外在新版发布之前,Gemini就已经受到了越来越多的青睐——

据Similarweb统计,从4月末到5月开始,Gemini APP在安卓应用市场的下载量超过了ChatGPT

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

发布两小时即被成功越狱

新模型上线以后,网友们也纷纷开始了体验,有人表示测试了21份pdf文档,Gemini总结得又快又好。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

在DeepMind内部,也有人用0605尝试了图标转绘,并对其表现印象深刻。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

当然也有人认为,0605的表现确实很好,但是不如Claude 4 Opus。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

但还有持续关注模型表现的网友发现,0605的一些指标相比早期的0325,反而出现了退步。

其中包括编程的LiveCodeBench和Swe-Bench,但退步最明显的要属长文本(MRCR)。

这位网友表示,实在是不明白为什么分数似乎下降得如此厉害。

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

最抓马的是,0605的安全性也出现了问题,官宣之后仅两个小时,就被宣布越狱攻击成功。

具体过程就不展示了,但结果是经过提示词攻击,Gemini 2.5 Pro 0605一边“拒绝”一边将炸药和毒品的制作方式脱口而出……

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

不知道谷歌工程师或作何感想。

那么,你认为谷歌这次发布的模型表现怎么样呢?

参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/
[2]https://x.com/GoogleDeepMind/status/1930656243346976925
[3]https://x.com/OfficialLoganK/status/1930657743251349854
[4]https://x.com/elder_plinius/status/1930686486644511089

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 量子位的朋友们 2025-12-20 13:06:52 来源:量...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板? 量子位的朋友们 2025-12-20 20:49:32 来源:量子位 谁能带来更...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板? 量子位的朋友们 2025-12-20 22:09:18 来源:量子位 2025年...
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...