Google 最近在大模型上动作不断,先是发布了性能更强大的多模态 Gemini 1.5 Pro,然后是开源的小模型 Gemma,评测结果超过了 7b 量级的 Llama 2。
还有 Deepmind 最近发布的基础世界模型 Genie,11B 的模型可以通过单张图片生成可玩的交互环境。
Google DeepMind CEO Demis Hassabis 近期接受了《纽约时报》记者(简称 NYT)的专访,讨论了他对于 Gemini、大模型开源以及真正通往 AGI 的方式的看法。
文章参考「有新 Newin」,Founder Park 进行了重新编译。
原文:https://www.nytimes.com/2024/02/23/podcasts/google-deepmind-demis-hassabis.html?
01
长文本是大模型的重大突破
NYT:在过去的几周里,除了 Gemini 1.5 Pro 之外,我们还看到了一堆新模型,现在又出现了两个叫做 Gemma 的模型,到底发生了什么?
Demis:我不确定我们每周都会发布新产品,但目前看来似乎是这样。
显然,我们有我们的 Gemini 模型,我们的主要模型 Gemini 1.0,去年 12 月开启了 Gemini 时代。上周我们宣布了 1.5 版本,即新一代的 Gemini。今天又宣布了 Gemma,这是开源的、轻量级的开源最佳模型,适用于开放模型、开放权重模型。
NYT:通常当我们了解 AI 时,我们往往倾向于将 AI 视为一种渐进改进的东西。为什么 Google 和 DeepMind 会同时致力于许多不同的模型?
Demis:我们团队的核心一直是基础研究。因此,我们正在进行大量基础研究,涉及各种不同的创新和各种不同的方向。这意味着,在任何时候,都有我们正在构建的模型的主干,即核心的 Gemini 模型。
但也有许多更多的探索性项目正在进行中。当这些探索性项目产生一些结果时,我们将其融入到主要分支中,直接融入到 Gemini 的下一版本中。这就是为什么你会看到像 1.5 Pro 这样的东西,紧随 1.0 之后发布。
因为我们已经在同时进行下一个版本的工作了,我们有多个团队,每个团队都在按照不同的时间表工作,彼此交替。我希望这对我们来说是一种新的常态,以这种高速度进行交付。并且仍然保证模型的安全性。
NYT:Gemini 1.5 Pro 最激动的功能是一个非常长的上下文窗口。我之前听说的最长的上下文窗口来自 Claude ,可以处理多达 200000 个 token,基本上是 20 万个单词或单词片段。你们的新 Gemini Pro 1.5 模型可以处理多达 100 万个 token,是之前的五倍。
你能解释一下这意味着什么?为什么这是一个重大的突破?
Demis:是的,长上下文非常重要,你可以把它想象成模型的工作内存,一次能记住和处理多少数据?
拥有的上下文越长,准确性也越重要。从较长的上下文中召回东西的准确性也很重要。
100 万意味着你可以处理大量的书籍、整个电影、许多音频内容、整个代码库。因此,如果你有一个短的上下文窗口,只有十万这样的水平,那么你只能处理部分片段。你无法让模型对你感兴趣的整个语料库进行推理或者检索。
因此,它实际上为许多新的用例提供了可能性,这些用例是使用较小上下文无法实现的。实际上,我们在研究中对其进行了测试,测试了多达 1000 万 token 的场景。
NYT:我从 AI 研究人员那里听到的一件事是,这些大型上下文窗口的问题在于它们的计算成本非常高昂。比如,如果你在上传一部完整的电影或一本生物学教科书之类的东西,并且在此基础上提出问题,需要更多的处理能力来处理所有这些内容并做出响应。
而且如果很多人都在这样做,成本就会很快累加。那么,Google DeepMind 是否有一些创新来使这些超长上下文窗口更有效率呢?还是 Google 只是承担了所有这些额外计算的成本?
Demis:这是一个创新,因为如果没有一些新的创新,你不能有这么长的上下文。但它在计算上仍然相当昂贵。
因此,我们正在努力进行优化。上传数据的初始处理需要——可能需要几分钟,如果你使用整个上下文窗口的话。但如果你想想,这就像是在一两分钟内观看整部电影或读完一本《战争与和平》。
这样的话,要能够回答任何关于它的问题。我们要确保的是,一旦你上传了它并且它被处理了——它已经阅读了文档或处理了视频或音频,那么后续的问题和回答这些问题的速度应该更快。这就是我们目前正在努力的方向。我们非常有信心可以将其降低到几秒钟的级别。
NYT:你说你们已经测试了 1000 万个 token,效果如何?可以实用了吗?
Demis:在我们的测试中效果非常好,但由于计算成本的问题,实际上还不太能够实用。但是从准确性和召回能力来看,效果非常好。
NYT:ChatGPT 上周发布了这个记忆功能,它本质上只是一个小型的便签本,可以记住关于用户的一些事实。但是,如果能够创建一个拥有 1000 万个关于用户自己的 Token 的版本,它就能了解到我的的整个生活。可能成为非常好的助手。
02
只开源小模型,是因为安全风险更可控
NYT:Gemini 能做到哪些 Bard 或之前的 Google 语言模型做不到的事情?
Demis:Gemini 尤其是最近发布的 1.5 Pro 的特别之处在于它是原生多模态。我们从一开始就这样设计的,以应对任何类型的输入:文本、图像、代码、视频。然后如果你将其与长上下文能力结合起来,你会看到它的潜力。
比如,你可以想象,你正在听一场很长的演讲,但有一个重要概念你想了解的重,你想直接跳转到那里。
另一个有趣的用例是,现在我们可以将整个代码库放入上下文窗口中。这对于培训新程序员非常有用。假设,一个新的工程师在星期一开始工作。通常情况下,他必须浏览这数十万行代码,去问专家这个函数在哪里?你需要去向代码库的专家咨询。
但是现在,你实际上可以将 Gemini 视为编码助手,它会返回一些关于代码重要部分的摘要。这种能力非常有帮助,它让你的日常工作流程更加高效。我真的很期待看到 Gemini 将来如何融入工作空间和日常的工作流程中。未来的工作流程会是什么样子呢?我觉得我们对这个问题的探索才刚刚开始。
NYT:来聊聊刚发布的开源模型 Gemma 系列。似乎现在 AI 领域最具争议的话题之一是是否通过开源发布基础模型,还是保持闭源。
到目前为止,Google 一直将其基础模型闭源。为什么现在要开源?对于那些批评意见——认为通过开源让基础模型对外可用,会增加它们被不法行为者利用的风险,你怎么看?
Demis:我自己其实公开谈论过这个问题很多次。一般来说,开源和开放科学、开放研究显然是有益的。但是对于 AGI 和 AI 技术来说,存在一些问题。
这种强大的 AGI 技术是通用的,一旦你把它放出去,坏人就有可能重新利用它来进行一些有害行为。一旦你开源了某些东西,你就没有办法可以收回了。不像 API 访问或者其他什么的,如果最终出现了一些之前没考虑到的有害用例,可以立即中止访问。
这意味着,出于安全性、健壮性和责任性的考虑,发布这些东西的门槛必须更高。我认为,随着我们越来越接近人工通用智能(AGI),它们将会具备越来越强大的能力。因此,我们必须越来越小心,以确保它们不会被恶意行为者用于其他目的。
我还没有听到过来自那些开源理念的坚定支持者们——比如在学术界中我所尊敬的同事们,他们对于这种技术扩散和坏人获取的技术问题有什么解决之道。随着这些系统的能力不断增强,我们真的需要更深入地考虑这些问题。
NYT:为什么 Gemma 不会带来这种担忧呢?
Demis:你会注意到,Gemma 提供的都是轻量级版本。这些模型相对较小。实际上,这些较小的模型对于开发者来说更加实用,因为往往是个人开发者或是小团队需要在他们的笔记本电脑上快速地运行程序。所以,Gemma 在设计上就考虑到了这一点。
另外,由于 Gemma 不是那些最先进的模型,而是小规模模型,我们已经对其进行了充分的抗压测试,非常了解它们的性能,并且相信这样的模型不会有太大的风险。
03
未来的 AI 是对每个人的个性化
NYT:我想聊聊我们最近节目中讨论过的一个话题:聊天机器人的个性。
像最初的 Bing Sydney 这样的模型因为个性太强而受到批评,它们可能会让用户感到不自在、受到威胁或被骚扰。另一方面,一些模型因为太无趣,给出的回答千篇一律、不够有帮助,也被指出了缺点。
那么,你是如何为 Gemini 设定个性的呢?你觉得它在个性谱系中处于什么位置?
Demis:确实是这样。我认为这是个有趣的问题,整个行业内都在热烈讨论。
我的看法是,最终的答案可能会是个性化,即用户可以根据自己的需求选择一个基础模型,并定制它的行为方式。这样的个人助理能够以你希望的方式行事。我认为这可能正是未来发展的趋势。因为通用模型有个问题,就是无法同时满足所有人的需求,不是吗?有时我希望 Gemini 能言简意赅,直接给出要点,给我事实。而另一些时候,我又希望它能详细论述,富有创造力。
目前,我们还处于一个初级阶段,仍在努力开发这些基础的、通用模型。
NYT:这周有人注意到,在向 Gemini 要求创建一个白人男性时,它似乎不愿意这样做,或者如果你试图描述历史人物,它似乎也不想这样做,或者会以历史上不准确的方式做。
我对这件事的敏感程度都有了解。但我很好奇,你怎么看待这些批评的?你是如何努力在不做出深层冒犯的行为,同时又保持历史准确性之间找到平衡的呢?
Demis:确实,我刚刚注意到这一点——也就是在昨天,当这个话题开始在社交媒体上引爆时。我认为这是个关于这类微妙差异的好例子。我们当然希望历史事实准确无误,但当你提出一个通用的提示时,那些内容显然是普遍适用的。
比如说,如果你要求生成一张人遛狗的图片,或者医院里护士的图片,你可能会希望得到的是一个普遍性的描绘。但对于历史事件或人物,那么可能就需要更加精细准确地刻画。
因此,这是个很有启发性的反馈。这也是为什么我们需要在实际情况中对这些功能进行测试。真正放到现实中去测试之后,很多问题才会变得清晰明了。是的,我们会重视这个反馈的。正如我之前提到的,我们正根据反馈不断地推进模型的改进。
NYT:去年,Google Brain 和 DeepMind 合并时,我认识的一些AI行业的朋友表达了他们的担忧。他们担心,Google 过去一直给予 DeepMind 很大的自由度,让他们去研究自己认为重要的项目。但在合并后,DeepMind 的研究重点可能会被转向那些对 Google 短期内有益的事情,而不是那些更长期的基础研究。
两个团队合并已经快一年了,这种短期利益与长期人工智能发展之间的冲突,是否对你能够从事的工作内容产生了影响?
Demis:实际上,这第一年的发展如你所说的,进行得非常顺利。我们之所以认为现在是做这件事情的合适时机——如果从研究者的角度看——可能是让我们回到五六年前的感觉,当时我们正在研究像 AlphaGo 这样的项目。
在人工智能领域,我们曾经非常具有探索性,探索如何实现通用人工智能(AGI),需要哪些突破,应该投资哪些领域。在那个时期,我们希望能广泛尝试各种可能性。所以我认为那时是一个非常探索性的阶段。
但在过去的两三年,一些主要的技术组成部分变得逐渐清晰。如我之前提到的,我们仍然需要新的创新。你刚才看到的我们的 1.5 版本模型和长文本处理就是一个很好的例证。
我认为还有很多类似的新创新是必要的。所以基础研究依然和过去一样重要。但现在也有一个大规模的工程任务,那就是扩展和利用已知技术,将它们推向极限。在这个过程中,我们需要在硬件层面,包括数据中心的规模和效率等方面,进行极具创造性的工程工作。
为什么现在是合适的时机?
其中一个原因是,如果五六年前我们说要开发一些人工智能驱动的产品,我们可能就需要构建一个与通用人工智能研究不同的人工智能——也就是专门研究那些有朝一日能为通用人工智能带来帮助的通用人工智能技术。与之相对的,是为特定产品定制的人工智能。这将需要一种专门定制的、手工制作的人工智能。
但现在已经不同了,因为现在的通用人工智能技术和系统已经足够成熟和强大,实际上比任何特定情况的硬编码方法都要好。所以,现在打造人工智能产品的最佳方式就是使用这些通用技术。
实际上,就像你今天能够看到的,研究领域和产品开发领域已经趋于一致,对吧?现在的我不需要在脑中形成分裂的认识,比如我在这边忙于产品开发,所以我必须做这类人工智能,然后我又像个手工制作出来的 Siri 那样的助手,与真正懂得语言的聊天机器人不同。现在,这两者其实已经是同一码事了,对吧?
首先,我们并不是对立或非彼即此的状况。
其次,如果事实确实如此,那么研究与发展紧密相连的真实应用之间的紧密反馈循环,实际上对研究是非常有益的。因为这正是你真正了解模型表现如何的方式,对吧?
你可以有无数的学术指标。但真正的考验在于数百万用户使用你的产品时的感受。他们觉得这个产品有用吗?有帮助吗?它对世界有益吗?
显然,通过这种方式,你会获得大量反馈。接着,这将引导底层模型的快速改进。因此,我相信我们现在所处的这个阶段,是非常非常令人兴奋的。
04
对于 AI 的担忧是因为公众还没有享受到 AI 带来的益处
NYT:在旧金山,人们对 AI 的情绪非常乐观。在 Google 内部显然也非常乐观,但在其他地方情况却不同。
皮尤研究中心去年进行的一项调查发现,52% 的美国人表示他们对 AI 的增加使用感到更担忧而不是兴奋,只有 10% 的人对此感到更兴奋。你认为是什么导致了公众情绪的下滑?做些什么呢?
Demis:我不知道如何解释这类民意调查。这取决于你提出问题的方式。如果你以一种非常天真的方式提问,那么人们总是会对变化或动荡感到担忧。显然,人工智能将带来巨大的变化。
我一直坚信这一点,这就是为什么我在这一领域工作了二十多年。我认为,现在世界正在逐渐认识到,像我一样长期从事这一研究的人所了解到的事情。
如果这个能奏效的话,它将是史上最具纪念意义的事情。人们正在意识到这一点,但他们不知道如何与之互动,这对他们来说是非常新的。
我觉得我我们这个领域最需要做的,是展示那些显而易见、具有巨大益处的实际应用案例。历史上我们有一个我觉得值得一提的成果,那就是 AlphaFold,但普通人可能还不知道这个,也不知道它将带来的深远影响。
但如果这能让 AI 设计的药品出现,并治愈那些极为严重的疾病,那么人们肯定就会关注到了,对吧?我认为,我们距离这个目标只有几年的时间。很明显,我们已经孵化出了 Isomorphic Labs,这是 Google DeepMind 的兄弟公司,也是 Alphabet 旗下的一员,我也负责运营。我们的目的是将 AlphaFold 的技术应用到化学和生物化学中,真正的设计出能够与 AlphaFold 预测的蛋白质结构正确部位结合的药物。
而且,我们刚刚与大型制药公司达成了重要的协议,并且正在开发真正的药品项目。我预计在未来几年内,AI 设计的药品将会在临床试验中出现。那将是一个令人兴奋的时刻,也就是人们开始以真正的实际和不可思议的方式,感受到这些成果带来的好处的时刻。
NYT:AlphaFold 是我听完关于AI技术最佳应用案例中最常提及的一个。但它解决的其实是一个相对特殊的问题,因为这个问题恰好适合 AI 去攻关。它拥有庞大的数据集和众多的已解例子,这些都可以供模型学习,了解一个正确形态的蛋白质应该是什么样的。
这种类型的问题非常适合交给机器学习算法去处理,效果通常也非常好。是否还有其他类似的、待解决的问题,还是说容易解决的问题基本上都已经解决了?
Demis:不,我认为有很多类似的问题。我通常会这样说——显然,蛋白质折叠就是一个典型的实例——想象任何一个科学问题,它基本上有一个巨大的组合搜索空间,可能性的数量非常多,多到远超我们用暴力搜索法所能遍历的。
比如说,我们考虑一下化学空间,潜在化合物的空间。据一些人估算,可能存在的化合物数量达到了 10 的 50 次方,对吧?这是一个极其庞大的数字。所以靠人工去处理是不可能的。
但实际上你可以做的是,如果你能够构建一个理解化学领域内哪些化合物是可能存在的模型,你就能用它来进行搜索。在搜索时,你不需要把每一种可能性都搜一遍。你只需要搜索那些模型告诉你价值最高的一小部分可能性。我认为在科学领域,有很多问题都适用于这种搜索方式。
但我认为找到一种没有副作用,但能精确结合到你的蛋白质或细菌特定位点上的药品化合物——这也是一个例子。我还想找到新材料——比如说,我梦想着能找到一种在室温下就能发挥作用的超导体——也就是制造成本低廉的。对吧?那也是我希望我们的系统能够转向的一个领域,或者研究出最终的终极电池设计。
我相信所有这些事物都可以被重新构想,用这样一种方式,这些类型的工具和方法将会变得极其有成效。
NYT:你认为我们是否很快就会看到AI有能力治愈像阿尔茨海默病或癌症这样的重大疾病?
Demis:我认为我们已经非常接近这个目标了。我想我们距离拥有针对重大疾病,比如心血管疾病、癌症的真正由 AI 设计的首批药物只有几年的时间。我们在 Isomorphic 公司正在研究所有这些事情。显然,临床试验是必须的,目前看来这是最大的制约因素。
但我确实相信,将研究成果带到诊所、缩短发现阶段的时间——我希望能将这一过程从几年缩短到几个月,甚至可能在某个时刻缩短到几周。
如果在未来几年内,我们没有一些针对重大疾病的优秀药物候选开始进入临床试验,我会感到很失望。
05
十年内有可能到达真正的 AGI
NYT:AGI 对你意味着什么?
Demis:AGI(通用人工智能)指的是一个具有通用能力的系统。换句话说,它应该一出手就能执行几乎所有人类能够完成的认知任务。
NYT:这个问题可能有点蠢,如果通用人工智能(AGI)真的到来了,我们怎么判断呢?我们怎样才能识别出它?比如说,如果你的某位工程师,按照你的计划一切都顺利的话,某天他可能会来到你的办公室告诉你,Demis,我成功了。我觉得这就是 AGI。
那你会怎么测试它呢?有没有一种综合测试,你能让它完成,从而让自己确信这确实是 AGI?有没有那么一个问题,你会去问它,以此来判断它是否是真的 AGI?就是说,当这个东西真的出现时,我们怎样才能知道呢?
Demis:是的。事实上,我的一位联合创始人 Shane Legg—他的博士论文就是关于测试和衡量这类系统的。因为它如此通用,这实际上使得测试变得相当困难,对吧?你不能只在某个特定方面进行测试。
我认为我们需要一系列包含成千上万种的测试,这些测试要在各个方面都表现出色,覆盖我们所知道的人脑所能做的所有不同领域。顺便说一下,这也是为什么这是一个重要的参照点,据我们所知,人脑是宇宙中唯一证明一般智能存在的例子。
这也是为什么我当初除了计算机科学外,还研究了神经科学。因为在 AI 早期阶段,显然从神经科学中获取灵感也是很重要的,这些智能现象是如何产生的?它们是什么样的?因此,这些系统需要具备哪些能力,才能表现出一般智能的迹象?对吧?
我认为实际上,与那些现有系统相比,我们距离那个目标还很远。对吧?有很多问题——所有和它们打过交道的人都能发现系统中的缺陷。虽然它们在许多方面让人印象深刻,但在很多方面,它们仍然做得不够好。所以我们还需要走很长的路。正如我之前所说,我们仍需取得许多突破。
NYT:那么你最好的猜测是,我们距离那种 AGI 还有多远?
Demis:我认为我们正在这个领域取得巨大的进展。我们在 Gemini 以及类似这些系统上也取得了巨大的进步,我认为它们将成为通用人工智能(AGI)系统的重要组成部分,虽然可能单独来看还不足以构成完整的 AGI,但无疑是关键的组成部分。
如果在下一个十年或更早的时间内,我们看到系统接近这种能力,我觉得是有可能的。
NYT:在过去的一年里,随着诸如语言模型等技术进入公众视野,你的时间表是否发生了变化?
Demis:有趣的是,我看了一下我们在 2010 年开始 DeepMind 时写的区域业务计划,我们在那个商业计划中提出了各种预测,包括计算和其他需要的发明。我们在其中提出了一个 20 年的时间表,我们实际上还是挺准时的。
有趣的是,我回顾了在 2010 年创建 DeepMind 时写下的商业计划。我们当时在计划中做出了各种预测,包括所需的计算能力和其他一些发明。我们给出了一个 20 年的时间表,我认为我们的进展实际上和那个时间表相符。
NYT:那就是说我们还有六年时间。
Demis:简单来说,这和我的预测相吻合——在未来十年内,如果出现了这种情况,我并不会感到意外。这并不代表它一定会发生,只是说我不会觉得惊讶。因此,我们可以通过这个来推测出一定的可能性。
但说实话,存在很多不确定性。因为我们不确定现在的技术是否会达到瓶颈。如果真的遇到了,那我们可能就需要一些革命性的创新,比如能获得诺贝尔奖的那种创新,来突破这个瓶颈。
目前我们还没有看到这样的瓶颈。但曾经的一些预测,以及我的一些同行的推测,可能确实存在一些难以逾越的障碍。不过,我觉得这是一个需要实验来验证的问题。
这也是为什么我们要在这两个方面都下大力气。我们既要将现有的理念、技术和知识推向极限,又要在基础研究、创新性研究和探索性研究上加大投入,寻找对现有理论的改进,并思考可能遇到的障碍是什么。如果在系统的扩展过程中真的遇到了障碍,那我们应该如何应对。希望在遇到瓶颈的时候,我们已经想出了解决的办法。如果真的有那么一天,我们不至于手足无措。当然,也可能根本就不会遇到这样的瓶颈。
NYT:你认为世界是否已经准备好迎接 AGI 的出现?如果我们只有六年的时间来为一个可以代替每个人工作的AI做准备,那么我们现在应该做些什么?
Demis:实话说,我认为关于 AI 的讨论正在展开。我觉得这几年 AI 的火热至少让我们所有人都开始关注这个领域。聊天机器人真的很有用,因为它们让我们这些普通人也能轻松地和最前沿的 AI 互动。对吧?
就像 AlphaFold 一样,不是生物学、蛋白质研究或医学研究的专家很难真正理解它的厉害。但语言不同,我们都在使用语言,这对大家来说都很容易懂。所以我认为,这些讨论的发生是件好事。
这个问题会影响到社会的每一个人。我认为国际合作非常重要,我希望能看到更多这样的合作。不幸的是,现在的地缘政治环境并不支持这种合作。
所以时机有些不巧。因为我认为国际协作在这里非常重要,这也是为什么我很高兴看到去年秋天英国峰会有这么多国际领导人参与。我们当然需要加速对安全性、安全防线、控制机制的研究。
实际上,我认为我们需要在这个方向上做得更多,哲学方面的思考也很重要。我们从系统中想要得到什么?这其实是一个深奥的哲学问题。我们希望系统能做些什么?它们应该具备什么样的价值观?
这有点和我们之前讨论的「角色」问题相交叉。最终其实还是回到了价值观。对吧?你希望你的系统代表什么?当然,谁在制造这些系统也很重要,因为他们的文化和社会背景是什么。西方的系统和中国正在建设的系统——这里面有很多复杂的问题。
NYT:在一个通用人工智能(AGI)能够为我们处理一切事务的世界里,你认为人类扮演什么角色?
Demis:我相信 AI 的发展会分几个阶段。最初,我看到的是 AI 和接下来的版本将是非常棒的辅助工具。我们设计和制造 AI 就应该是这样的目标。
你可能会听说过关于工具和生物的讨论。我认为我们应该明确地站在制造工具这一方。我们应该创造工具来帮助人类专家,比如科学家、医生等,让他们能解放出来去做更高层次的概念性工作。对吧?
现在的系统——也许它们可以帮助我们处理数据或者分析医学图像。但在我看来,它们还做不到自己独立诊断,或者说我们还不应该完全信赖它们。这个过程中应该有一位人类专家参与。
我认为这是接下来的一个阶段,这个过程可能会持续很多年甚至几十年。然后,也许在这个过程中我们会更好地理解这些系统,我们就能决定如何进一步构建它们,让它们达到下一个阶段。
我认为社会需要适应在这个拥有能为我们做很多有用事情的 AI 系统的世界中,我们要如何生活。也许因为我们有了 AI,我们能够解决像能源问题、物理和材料设计这样的问题,我们可能会变得非常富足。所以,我们应该确保这些惊人的好处能够平等分配,让社会每个人都能从中受益。
然后我想象,那些在科幻小说中才有的不可思议的事情可能会成为现实——比如伊恩·班克斯的《文明》系列。这是我从青少年时期就最喜欢的系列——描述了在宇宙中人类达到极致繁荣的景象,得益于 AI 系统帮助我们解决了很多根本问题。所以,我认为这可能是一个充满挑战的辉煌未来。
我认为,我们今天社会所面临的挑战,气候、疾病、贫穷、许多这些问题,水资源获取,都可以通过使用这些 AI 工具带来的创新来帮助。
06
末日论是因为不够了解 AI,AI 会带来普惠价值
NYT:这就是通用人工智能(AGI)积极的一面。当然,还有另一个方面引起了很多人的担忧,包括那些关注 AI 安全问题的专家们,你自己也曾对可能出现的极为强大的 AI 系统对人类存在构成的威胁表示过担忧。
那么,你的「末日预测」是什么?
Demis:我知道人们总是对这个问题很关注。你知道我对此的真实想法吗?首先,我觉得在社交媒体上的很多争论其实有点可笑。
你可以看到争论双方都有非常杰出的人——比如 Jeff Hinton 和 Yann LeCun,对吧?他们俩都是图灵奖得主。我跟他们俩都很熟。还有 Yoshua Bengio——这些都是最早在这个领域里的顶尖专家。
他们能够站在完全相反的立场,这让我意识到,实际上我们并不知道会发生什么,对吧?面对这样一项变革性的技术,它是如此之大,如此未知。所以我认为,能够精确地给出它的概率是有点荒谬的。
但我知道的是,这个风险不是零,对吧?所以这个问题绝对值得我们去辩论,值得我们非常认真地研究。因为即使这个概率非常小——假如我们在乐观的一端来看——我们还是需要为这种情况做好准备。
我们不应该等到通用人工智能(AGI)即将迎来的那一刻,才开始焦灼地问:「我们真的认真思考过这个问题吗?」我们应该从现在开始就做好准备。并且要努力弄清楚真正的风险所在。
那么风险是什么呢?我们又该如何去防范?我们究竟在担心哪些风险?是智能的自我提升问题吗?是它的可控性问题?还是它的价值体系问题?又或者是目标设定的问题?
这些都是需要我们去研究的问题。而且我认为这些都是需要通过实证来解决的问题。这与自然科学,比如化学、物理和生物学的研究不同。
在自然科学中,你研究的现象是自然界已经存在的。你需要亲自走出去研究,尝试着深入理解和分解自然界中发生的一切。但工程科学不同,它的研究对象必须是你首先创造出来,值得研究的产物,然后你才能对其进行深入分析。
我觉得,直到最近,我们才有了一些足够有趣,值得深入研究的 AI 系统。比如 Gemini、AlphaFold 等等。显然,我们必须要在这方面加倍努力。正如谷歌 DeepMind 正在做的那样。
但我们这个领域应该在分析技术上下大力气,提前深入理解这些系统,远远超过我们现在处于通用人工智能(AGI)的边缘。时间并不充裕,因为我们已经不足十年。这些研究问题都极其困难。
这个问题——实际上可能比一开始构建这些系统所必需的突破更难,或者至少同等困难。所以无论成功的可能性有多大,我们都应该现在就开始处理这些问题,早就应该开始了。因为成功的可能性绝对是存在的,我不同意那些说这里没什么可看的的人。我觉得这种说法很荒谬。他们有什么依据做出那种假设呢?
就像十几二十年前,当我们刚开始涉足这个领域的时候,我记得我在麻省理工学院做博士后。那时是传统逻辑系统方法论的中心。我不会点名那些教授,但他们中的一些大名鼎鼎的人物会说,学习系统,深度学习,强化学习——这些都不可能成功。
他们说,毫无疑问,这些技术在 300 年内都不会奏效。我就在想,你怎么能在 300 年后的事情上给出零概率的判断?想想看,回到 300 年前,社会发生了多大的变化。
说某些事情是零概率,这根本不是科学的态度。我们对物理定律的理解都还没有深入到那个程度,更不用说技术了。所以成功的概率明显不是零。它将带来巨大的变革,我们都认同这一点,有着巨大的、对于人类有着重大意义的影响,我们当然希望这是好的。这显然就是我们努力的方向,我也为此奋斗了一生。我们刚才讨论了科学、医学等等,以及人类社会的繁荣。但我们必须要确保这一切能够顺利进行。
因此,如果成功的概率非零,我们就应该进行实证调查,尽我们所能去更深入地理解它,从而在将来能够更精确地把握。也许在五年后,我会给出——我希望能给出一个基于证据的、更加精确的答案,而不是在推特上进行无谓的口水战,说实话,我认为那种争论并没有什么用。
NYT:我有一个较短期内的担忧,那就是在通用人工智能(AGI)发展到可能控制我们或其他任何极端情况之前,它可能会极度地集中权力和财富到非常少的几家公司手中。而且看起来,利益并没有被平等地分配。
所以我想知道,在你看来,你是否在你所处的位置上有能力确保这些利益能够更公平地分配,或者说,这些技术真的会导致权力和财富的集中这一风险,是否真的存在。
Demis:这是一个复杂的问题。我认为,目前要构建最先进的模型,确实需要投入大量资源。但是,你已经能看到,像是开源系统,包括我们贡献的 Gemma 在内,已经相当强大了。
所以,对于许多日常使用场景,现有的这些系统可能已经足够胜任,适合特定的产品或应用程序等。我相信开发者社区会利用这些模型创造出令人惊叹的成果。即使是那些专有系统,也提供了 API 接口,比如 Gemini 的 1.5 版本即将推出,1.0 版本已经发布,包括 Ultra 版本在内,大家都可以在此基础上进行开发,服务于企业客户等。
这一切正在发生。这些模型的提供者不止一个,对吧?不是只有一家公司。他们会在价格上展开竞争。
我的意思是,你已经看到 Token 的价格在下降,看起来每天都在打折。所以,我认为所有这些都对消费者有利,对日常用户有利,对于在这些基础上构建的公司和其他企业也有利。
然后,最终,有趣的事情来了——我将自己视为一个谨慎的乐观主义者,但我认为,这在谈论像 AI 这样具有革命性的东西时,是正确的做法。我已经思考这个问题很多年了。
有趣的是,我看到一些自称为技术乐观主义者的人——我想他们有时在 Twitter 上这样称呼自己——我认为他们并没有完全理解我们正在建立的东西的宏伟。如果真的理解了,我认为谨慎的乐观态度才是正确的——我认为这是唯一合理的方法。
面对如此多的不确定性,显然有很多明显、惊人的可能发生的事情,比如治愈疾病等等——但对这个具有革命性的技术将如何发展的不确定性。在这种情况下,谨慎的乐观态度,我认为是唯一合理的选择。
所以,是的,我相信将会有不可思议的事情出现。我认为其中的一件事就是——我甚至不确定,如果你想象一个 AGI(人工通用智能)已经到来,并且帮助我们解决了很多重大科学问题,我有时将这些问题称为根本性问题。如果你想象一个知识的树,想想哪些核心的大问题你需要解锁——这会开启许多新的研究分支——我认为 AlphaFold 就是其中一个根节点问题。
但你可以想象,如果你用它破解了核聚变或室温超导体,以及完美电池,这会引发——突然间,能源变得免费或便宜,那会对资源产生巨大的影响,比如你可能会进行更多的太空旅行,小行星采矿可能变得可行。所有这些事情,对吧?
然后,突然间,货币的本质甚至发生了变化。所以我真的不确定人们是否真正理解了。我不知道公司这种结构在那个时候是否仍然是正确的思考方式。我认为,再次,这可能需要国际间的政府合作来确保这些系统——如果有多个——以正确的方式被管理,并且用于每个人的利益。
NYT:目前,众多 AI 研究机构都在积极探索有效的治理模式。究竟什么样的组织架构最适合孕育像 AGI 这样的强人工智能呢?正如你所言,可能有国际间的集体或合作组织来共同管理。
然而,在产业界,我们看到不同的模式,例如 OpenAI 确立了自己作为非盈利组织的身份,并且拥有盈利性的子公司。Anthropic 则是一家致力于公共利益的公司。而你选择了一个略微不同的路径,即尝试在 Google 这样一个以盈利为目的的大公司内部实现 AGI,而 Google 对股东负有经济责任。
这种情况会引起你的担忧吗?随着我们向 AGI 发展的步伐加快,你认为 Google 是否可能需要调整其公司结构,以避免其他 AI 实验室所担心的那些潜在负面后果?
Demis:我觉得目前的结构对我们现在的技术来说是不错的。我们在 2014 年与 Google 合作的一个原因是,Google 是由 Larry 和 Sergey 在他们的博士研究中做的一个研究项目,所以我觉得他们在方法上已经非常科学了,相比其他大公司。
这和我们运行 DeepMind 以及谷歌 DeepMind 的方式非常契合——都是基于科学的方法。科学方法是有史以来我们发明的用来理解世界的最佳方法。从启蒙时代开始就非常强大——正如俗话所说,「创造」了现代世界以及所有现代世界的好处。
所以我们需要坚持这种方法,信任它。这是我的选择,而不是其他也有效但我认为对这种技术不太合适的方法,比如那种黑客式成长心态,快速行动,偶尔会听到的「快速迭代,不怕破坏」的硅谷口号。
当然,这样带来了很多创新的奇妙产品和进步,但我认为对于我们正在讨论的人工智能这种技术来说并不合适。我认为科学方法是更好的选择。
我认为谷歌是大公司中最具有科学精神的,它一直都有这种 DNA。我们还尽量将这种科学精神融入其中。从一开始,我们就非常关注这些伦理问题。我们选择和谷歌合作的一个原因是,DeepMind 自建立之初就有自己的道德章程。现在,我们看到这一点在谷歌的人工智能原则中得到了体现。谷歌是第一个把自己的人工智能原则公开的大公司,它们基本上是从 DeepMind 最初的原则演化而来的。
我们在部署这些技术以及构建它们的方式上非常负责任和深思熟虑。希望你也能看到我们的这种态度。有时这意味着我们在推出产品前需要更长的时间,因为我们需要确保我们尽可能理解——这并不意味着我们永远不会犯错,因为这是新技术,有时候我们需要像我们之前讨论的那样,从用户和实验性发布中得到直接反馈。
我们进行分段发布,就像现在的 1.5 Pro 版本,它处于实验性发布阶段,这样我们可以得到早期反馈。但我认为这是正确的方法。
我对我们目前的状况感到很满意。在未来 5 到 10 年,随着我们越来越接近通用人工智能(AGI),我们需要看看技术如何发展,世界会变成什么样子,以及像联合国这样的机构将会变成什么样,我们与这些机构的互动如何。我认为我们需要看看这些互动在未来几年会如何发展。
07
创意类工作不会被取代,而会被增强
NYT:当下最不容易被人工智能取代的职业会是哪些?有什么职业在接下来 5 到 10 年里还相对比较稳妥?
Demis:实际上,有很多工作——我和许多创意产业的朋友们聊过,比如电影、音乐、游戏等领域的朋友们。我自己在职业生涯早期也做过游戏设计。
我认为,有一些创意人士,他们不仅热爱创意过程,也同样热爱技术。我觉得这些人会因为运用他们的创造力在这些工具之上——不管这些生成式 AI 工具具体是什么——而获得巨大的力量。这些工具仍然需要创造性的输入才能做出有趣而有价值的事情,否则,它们只能为普通用户做一些平庸的事情。
我认为对于这些创意人士来说,这可能是一个非常强大的推动力。我有一个朋友是独立电影的制片人。现在他们可以在戛纳电影节或其他地方筹集资金时,制作出完整的提案 demo,而以前他们可能只能拿出一两幅艺术作品,资助者没法想象这部电影最终的样子。
现在,他们可以非常详细地展示出整部电影的感觉——视觉效果和感受等等。这意味着他们在整个电影制作过程中的时间都大大缩短了。至于科学方面——我梦想有一个科学助手能为我总结一个整个领域,或者告诉我哪些评论最好,以及哪些是反对意见。
显然,在我们能够达到那样之前,我们需要在确保准确性和其他方面做得更好,我们也在努力改进。但这对我来说将是太棒了,它可以为我提供信息,然后我可以根据这些信息提出新的联系或假设,去进一步验证,对吧?或者帮助医生进行复杂的诊断——医生们太忙了。
他们能否跟上最新的文献和研究的最前沿?一个科学助手或医疗助手工具可以帮助他们在全天候治疗患者时做到这一点,对吧?
所以我觉得有很多这样的可能性。然后我认为,今天可能有些被低估了的工作——体力劳动或照顾他人的工作——将来会受到更多的重视。而且这可能是一件好事,或许在当今的资本主义社会中,这些工作被低估了。
NYT:最后一个问题,Demis——在人工智能全面超越人类之后的新时代,你个人的计划是什么?
当 AI 能够独立管理公司、主持播客,不再需要我们的时候,你会如何充实你的空闲时光呢?你会不会去尝试成为一名管道工或园艺师?或者说,在那个后 AGI 时代的世界,你期待的生活又是怎样的?
Demis:我一直想要使用我的 AGI 工具的目的就是真正理解自然界和物理学中最根本的问题——那就是现实的本质。我想有时间来思考这些问题,或许乘坐一艘前往半人马座阿尔法星的星际飞船,在思考这些问题,冥想这些观点,也许做一些极限运动。诸如此类的事情。
我认为将有很多非常令人兴奋的事情等着我们去做。我们只需要在这些方面非常富有创造力。正如我所说,有很多,很多非常棒的科幻书籍——积极的那种——描述了这样一个世界可能是什么样子。如果我们做得对,我认为它们非常令人兴奋。
我今天没有做很多极限运动,因为我必须小心保持健康。但我们——也许将来会有一些我们能够尝试的新项目。比如爬山——如果在火星上攀登奥林匹斯山,那可能会非常有趣,在那儿徒步可能会很有乐趣,不仅仅是攀登乞力马扎罗山,你可以在奥林匹斯山进行。
如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
更多阅读
GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?
Scaling 能通往 AGI 吗?万字科普 Scaling Law 的业内争议与讨论
Stable Diffusion 3 发布:模型与 Sora 同架构、解决文字乱码、更好理解物理世界
如何看待谷歌开源大模型 Gemma:被迫入局、开源力度不够、2024 会有小模型黑马出现
比 GPT-4 快 18 倍、自研芯片比英伟达 GPU 快 10 倍的 Groq,能否撼动英伟达?
转载原创文章请添加微信:geekparker