金磊 鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
传闻中的谷歌杀手锏Gemini,来了!
就在刚刚,谷歌CEO皮猜和哈萨比斯在谷歌官网联名发文,宣布推出这一万众瞩目的多模态大模型。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Fc4aec0dba7b74ad05252c88c9303d283.png)
标题明晃晃写着“最大”、“最强”,主打的就是一个干爆GPT-4。
具体来说,此次谷歌一共带来了Gemini的三个版本:
- Gemini Ultra:谷歌最大、最强模型,适用于高度复杂的任务
- Gemini Pro:可扩展至各种任务的Gemini模型
- Gemini Nano:适用于端侧设备的高效Gemini版本(1.8B/3.25B)
其中Gemini Ultra一上来就在32个基准测试中拿下30个SOTA,并且第一个在MMLU基准上达到人类专家水平。
而Gemini Pro从今天起,就会在Bard中实装上线。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F65bcab38f5556f3dcdb666ea534f3436.png)
同时,谷歌Gemini团队还公布了一份60页的详细技术报告。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F1877e2be68debd7971c613e5e0a16e66.png)
消息一出,社交媒体瞬间炸了锅。
英伟达AI科学家Jim Fan就第一时间转发评论:
这是OpenAI王座的有力竞争者。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F381cdb5bd8effbad316229192fcd51b3.png)
话不多说,一起来看更多细节。
谷歌史上最强大模型Gemini
在LLM中的表现,也正如我们刚才所述,32个基准测试中拿下30个SOTA。
其中,通用、推理、数学和编程等大方向的成绩如下表所示:
△Gemini 在包括文本和编码在内的一系列基准测试中达到SOTA
在多模态方面,Gemini Ultra在新的MMMU基准测试中也获得了59.4%的SOTA分数。
这项基准测试是由跨不同领域的多模式任务组成,需要大模型进行一个深思熟虑的推理过程。
根据谷歌给出的图像基准测试结果来看,Gemini Ultra在没有OCR系统的帮助下,表现优于之前最先进的模型。
△Gemini 在一系列多模态基准测试中达到SOTA
接下来,我们以具体的案例来看一下Gemini的能力。
例如科学家们经常要面对从成千上万的文献中提取数据的难题,像下面这篇研究,作者就通过手动的方法从上万篇遗传学论文中创建了数据集。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F98e5d3270d81d74bded39e0a5825d1c4.png)
像这样的数据集是需得随着时间流逝而进行更新的,但现实的情况是,自2021年以来,这个领域便已有超过200000篇新增的论文……
再像以往手动的方式显然是不可行的,不过现在有了Gemini,一切就变得简单了起来。
首先,通过自然语言的Prompt,告诉Gemini去过滤相关的科学论文:
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F50a53b374d1bb36e5f53590806795c20.png)
只需片刻时间,Gemini就能找到相关论文和非相关的论文。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F50bc7f0b94a1dc73d25c24747e81c54d.png)
而后,继续用Prompt告诉Gemini去阅读相关论文,并提取关键数据,甚至是可以要求它添加注释的那种。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F3f943ee6d48b1f5c4d41cc6f04388477.png)
如果你给Gemini一个午休的时间长度,它就能阅读200000篇论文,从中筛选出250篇并提取数据!
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F70bf1f7b32c1706418e464a37a926901.png)
并且由于Gemini是多模态的,我们还可以让它对上面的数据表格做进一步的深入操作,例如更新图表:
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F6bbc65bb6058e24fa31498456b83b70c.png)
对于学生党来说,Gemini现在也可以成为非常得力的学习助手。
例如“喂”给Gemini一张手写物理题,它不仅能看懂,而且还可以辨别手写答案的对错。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2Fb4351b467e3880d75e78fe9a902da023.png)
在此基础上,若是选择一个错误的题目,我们还可以跟Gemini通过自然语言沟通,让它对每一个细节步骤进行详解。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F4f2839d5d26f78ce3aa2c126aec608a6.png)
在看图像做理解和推理方面,谷歌还亮出了更多有意思的案例。
例如替换图片素材的组合方式,Gemini就能像人一样精准猜中所指的电影名字:
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F9588d87b764583a31c81bc033a6ce692.png)
就连下面这种高难度的也能hold住:
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F7b15b308c4c1c21a06bd3dd4da154f4d.png)
再如寻找两张图片的相似之处:
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F146a384d9528540522a777754a1a0831.png)
更有意思的是,谷歌还特意用中文做了个demo,来展示Gemini对多张图片的组合理解能力:
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F02e5a8bf792d8fbdf5cfbd669dbd67db.png)
那么接下来的问题就是:Gemini是如何做到的?
60页报告透露技术细节
谷歌Gemini背后技术的杀手锏,便是原生多模态(natively multimodal)。
因为以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。
这样训练出来的模型虽然有时可以很好地执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,就会出现表现不佳的结果。
而谷歌Gemini所强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。
谷歌对此表示:
这样的训练方法,有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F9052f1213f0f3729536fc57aa3cfe871.png)
具体到模型架构方面,Gemini基于增强的Transformer decoder打造,采用了高效attention机制(如multi-query attention),支持32k上下文长度。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F7ac6c8b49593e5eeadafd5046f7d60a1.png)
尽管没有透露Ultra和Pro版本的具体参数规模,但技术报告中提到,谷歌使用TPUv5e和TPUv4来训练Gemini。
训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比,Gemini在规模上显著增大。
此前,PaLM-2被曝参数规模为3400亿。
Gemini Pro实装上线
竞争对手那边,OpenAI的GPTs惊艳全世界,微软的Copilot更是先一步渗透进全线产品。
因此Gemini一出,谷歌也当即强调:Gemini将通过谷歌产品推向数十亿用户。
率先上线的是Gemini Pro。从今天起,谷歌的聊天机器人Bard将由Gemini Pro微调版本驱动。谷歌表示:
这是Bard自推出以来的最大升级。
谷歌还打算把Gemini引入手机:Pixel 8 Pro将是第一款运行Gemini Nano的智能手机。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F8b71e1482f63845d32f46100b4afb73f.png)
另外,谷歌计划在接下来几个月中,将Gemini全面推向搜索、广告、Chrome和Duet AI等产品线。
根据官方数据,Gemini能使用户的搜索生成体验(SGE)速度更快、质量更高,比如在美国使用英语搜索延迟能减少40%。
值得关注还有,就在Gemini正式亮相的同时,谷歌还推出了专为大模型而设计的新一代TPU——Cloud TPU v5p。
![突发!谷歌发布史上最强大模型Gemini,打爆GPT-4 突发!谷歌发布史上最强大模型Gemini,打爆GPT-4](https://images.weserv.nl/?url=https%3A%2F%2Fwww.qbitai.com%2Fwp-content%2Fuploads%2Freplace%2F5c04422e1e029e5ff5ba876037063796.png)
那么,你觉得这一波,谷歌能赶上OpenAI的脚步吗?
参考链接:
[1]https://blog.google/technology/ai/google-gemini-ai
[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
[3]https://youtu.be/jV1vkHv4zq8?si=jjAw0uV0dkpP3eVT
![post-qrcode](https://aigc.luomor.com/wp-content/uploads/2023/03/qrcode_for_gh_ada6dea0c7e9_258.jpeg)