Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

1,686次阅读
没有评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。

为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

不会像谷歌官方发布会那样,用CoT@32对比5-shot了

一句话结果:Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

不少研究者表示,太卷了,Gemini刚发布没几天就搞出这么详细的测试。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

六大任务深入测试

这项测试具体比较了6大任务,分别选用相应的数据集:

  • 知识问答:MMLU

  • 推理:BIG-Bench Hard

  • 数学:GSM8k、SVAMP、ASDIV、MAWPS

  • 代码:HumanEval、ODEX

  • 翻译:FLORES

  • 上网冲浪:WebArena

知识问答:喜欢选D

从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

MMLU数据集里都是多选题,对结果进一步分析还发现奇怪现象:Gemini更喜欢选D。

GPT系列在4个选项上的分布就要平衡很多,团队提出这可能是Gemini没针对多选题做大量指令微调造成的

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

另外Gemini的安全过滤比较严重,涉及道德问题只回答了85%,到了人类性行为相关问题只回答了28%。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro表现超过GPT-3.5的两个科目是安全研究和高中微观经济学,但差距也不大,团队表示分析不出来什么特别的。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

推理:长问题不擅长

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro在更长、更复杂的问题上表现不佳,而GPT系列对此更稳健。

GPT-4 Turbo尤其如此,即使在较长的问题上也几乎没有性能下降,表明它具有理解复杂问题的强大能力。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

如果按问题类型来分析,Gemini特别不擅长“tracking_shuffled_objects”这类问题,也就人们交换物品,最后让AI判断谁拥有哪些物品。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini比较擅长的任务是,需要世界知识的体育运动理解、操作符号堆栈、按字母顺序排序单词,解析表格。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

数学:复杂任务反超

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

这一次问题本身太长Gemini Pro和GPT-3.5表现就一起下降,只有GPT-4还能保持一贯水准。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

但使用的思维链提示长度最长时,Gemini反超GPT-3.5。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

代码:擅长matplotlib

对于代码问题,Gemini在参考答案长的问题上表现很差。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

按调用的库来分类,GPT系列在大多数类型更强,但matplotlib就完全不行。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

翻译:只要回答了,质量就很高

翻译任务上,有12种类型Gemini拒绝回答,但是只要回答了的翻译质量都很高,整体表现超过GPT-4。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini拒绝翻译的类型主要涉及拉丁语、阿拉伯语。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

网络导航:擅长跨站点冲浪

WebArena给AI模拟了一个互联网环境,包括电子商务、社交论坛、GitLab协作开发、内容管理系统和在线地图等,需要AI查找信息或跨站点完成任务。

Gemini在整体表现不如GPT-3.5 Turbo,但在跨多个站点的任务中表现稍好。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

网友:但是它免费啊

最后,CMU副教授Graham Neubig承认了这项研究的一些局限性。

  • 基于API的模型行为可能随时变化

  • 只尝试了有限数量的提示,对不同模型来说适用的提示词可能不一样

  • 无法控制测试集是否泄露

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

谷歌大模型推理团队负责人周登勇指出,对于推理任务把Gemini的温度设置为0可以提高5-10个百分点。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

这项测试中除了Gemini与GPT系列,还搭上了最近很受关注的开源MoE模型Mixtral。

不过强化学习专家Noam Brown认为可以忽略其中Mixtral的结果,因为用的是第三方API而非官方实现。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Mistral AI创始人也来给团队提供了官方版调用权限,认为能得到一个更好的结果。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

总得来,虽然Gemini Pro还是不如GPT-3.5,但是它胜在每分钟调用不超过60次就免费。

所以还是有不少个人开发者已经转换了阵营。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

目前Gemini最高版本Ultra版尚未发布,到时CMU团队也有意继续这项研究。

你觉得Gemini Ultra能达到GPT-4水平么?

论文:
https://arxiv.org/abs/2312.11444

参考链接:
[1]
https://twitter.com/gneubig/status/1737108977954251216

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...