谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

1,208次阅读
没有评论

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4当地时间 12 月 6 日,谷歌 C++EO Sundar Pichai 官宣谷歌的大语言模型 Gemini 1.0 版本,在 11 月份被媒体报道 Gemini 推迟发布后,此次的 Gemini 发布略显仓促,原计划中的线下活动也被取消,变成了线上活动。

Google 最早在今年五月的 IO 大会期间透露了 Gemini 的存在,但与之前外界预期的不同,Google 声称 Gemini 的发布并未因为任何内部原因而延期,表示其 AI 模型的研发进程从 2012 年已经开始,直到最近 2023 年发布 PaLM2 与 Bard 之后,就开始为 Gemini 的正式发布做准备。

01

三种尺寸版本,提供端侧可部署的 Gemini Nano

本次发布的 Gemini 分为三种不同的尺寸,适应不同任务的需求:

Gemini Ultra:规模最大且功能最强大的模型,适用于高度复杂的任务。

Gemini Pro:适用于各种任务的最佳模型,也是当前 Google Bard 使用的模型版本

Gemini Nano:适用于特定任务和端侧的,可以在使用特殊芯片的终端设备上运行。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。Gemini Ultra 的得分率为 90.0%,是第一个在 MMLU(大规模多任务语言理解)测试中超过人类专家的模型,MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试世界知识和解决问题的能力。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

谷歌表示,Gemini Ultra 在广泛使用的基准测试中优于 GPT-4,这些基准测试了阅读理解、代码生成和视觉理解等能力。众所周知,比较和评测语言模型是一项艰巨的任务,由于基准测试是公开的,谷歌可以使用它们来训练模型。

Gemini 1.0 具有复杂多模态推理能力,可以帮助理解复杂的书面和视觉信息。这使得它尤其擅长发现海量数据中难以辨别的知识。Gemini 1.0 通过阅读、过滤和理解信息具有了从数十万份文件中提取 insights 的超凡能力,这有助于科学、金融等诸多领域以超快的速度取得新突破。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

Gemini Ultra 将于明年推出从 12 月 13 日开始,开发者和企业客户将能够通过 Google Generative AI Studio 或 Google Cloud 中的 Vertex AI 访问 Gemini Pro。

目前已经在 Bard 上部署的 Gemini Pro,谷歌声称它在八个行业标准基准中的六个中击败了 GPT-3.5。目前 Bard 在 170 多个国家和地区提供英语服务,谷歌计划在未来几个月内扩展不同的模态,并且支持新的语言和地区。

明年,谷歌计划推出由 Gemini Ultra 提供支持的「Bard Advanced」预览版,这是谷歌新的大型语言模型中最强大和最强大的版本。

Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机,它可以支持录音应用中的「总结」等新功能,并在 Gboard 中推出「智能回复」功能,从 WhatsApp 开始,明年还将推出更多信息应用。

Gemini Nano 除了登陆 Pixel 8 Pro 手机上之外,从即日起也将开放给所有 Android 14 开发者,开发者可以以 AICore 的形式,在手机系统中调用 Gemini 的能力,用在自己的 App 中尝试 AI 功能。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

未来几个月,Gemini 将应用于谷歌更多的产品和服务,如 Search、Ads、Chrome 和 Duet AI。


02

原生多模态,暂时只支持英语对话

Gemini 最大亮点之一就是原生多模态大模型——设计时原生支持多模态,具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。

谷歌没有像 OpenAI 创建 DALL-E 和 Whisper 那样训练图像和语音的单独模型,它从一开始就建立了一个多模态模型。

谷歌表示:Gemini 1.0 经过训练,可以同时识别并理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。第一代 Gemini 可以理解、解释和生成世界上最流行的编程语言(如 PythonJava、C++ 和 Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理,这些能力使其成为世界领先的编码基础模型之一。

目前,Gemini 最基本的模型仅支持文本输入和文本输出,但 Gemini Ultra 可以处理图像、视频和音频,谷歌计划在之后增加输出图片的能力。


03

基于谷歌设计的 TPUs 训练,同时发布专供大模型训练的 TPU V5p

对于 Gemini 的训练,谷歌使用内部设计的张量处理单元 (TPU) v4 和 v5e 在人工智能优化基础设施上进行大规模训练。

在 TPU 上,Gemini 的运行速度明显快于早期规模较小、能力较弱的模型。目前 TPUs 上运行的 AI 已经在支持谷歌核心产品如 Search、YouTube、Gmail、Google Maps、Google Play 和 Android 的运行。

同时,谷歌同时发布了迄今为止最强大、最高效、可扩展的 TPU 系统—Cloud TPU v5p,专为训练尖端的人工智能模型而设计。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机

对于缺少算力和 GPU 的很多企业来说,如果 Gemini 能成为 GPT 的平替甚至超越 GPT-4,可能也能缓解一些 GPU 算力紧缺恐慌。

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

更多阅读GPTs大爆发后,AI创业者该如何进场?从100多个GPTs里,探究OpenAI究竟想要什么,又做了什么
AI女友产品开发记录:语音带来增长,OpenAI审查升级后访问量暴跌70%
拼多多创始人黄峥早期访谈:我们都是时代的产物,在大环境下做好自己该做的事情
月之暗面杨植麟:大模型需要新的组织范式,场景摩尔定律能催生 Super App
转载原创文章请添加微信:geekparker

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...