10月24日,在英国举行首届国际人工智能安全峰会前一周,一篇简短而重磅的论文《人工智能飞速进步时代的风险管理》(Managing AI Risks in an Era of Rapid Progress) 公开发布。其中,三位图灵奖获得者、一位诺贝尔奖获得者以及来自美国、中国、欧盟、英国等国的十多位顶尖的人工智能技术和治理领域的学者共同撰文,呼吁各国政府和领先人工智能企业及时采取具体行动,以减轻这一飞速发展的技术带来的伤害和风险。
论文代表了顶尖人工智能学者就政府应如何应对人工智能风险达成的首次共识,同时也是迄今为止来自广泛专家群体对此问题提出的最具体和全面的建议。例如,文章提出分配至少三分之一的人工智能研发资金用于确保人工智能系统的安全性和合乎伦理的使用(与其对人工智能能力的投资相当)。
与之相似的,Geoffery Hinton今年5月提出人工智能研发和安全的资金比例应达到五五开;OpenAI于今年7月提出超级对齐概念,并宣布为其投入持续四年20%的计算资源。我们安远AI认为这代表的核心精神是,应该与重视人工智能能力一样重视人工智能安全,并给予相应的投入。
安远AI已获得合著者的许可,进行中文版的翻译和发布,转载请注明来源。
本文共5900字,大约需要15分钟阅读。
世界领先的国际专家合著
该论文的著名合著者包括:
-
三位图灵奖获得者
-
图灵奖得主、中国科学院院士、清华大学交叉信息研究院院长(姚期智)
-
两位图灵奖得主创建了深度学习领域,有时被称为“人工智能教父”(Yoshua Bengio和Geoffrey Hinton)
除姚期智外,中国著名的计算机科学家和人工智能治理专家还包括
-
中国工程院院士、清华大学智能产业研究院院长(张亚勤)
-
清华大学人工智能国际治理研究院院长、苏世民书院院长(薛澜)
-
华东政法大学政治学研究院院长、人工智能与大数据指数研究院院长(高奇琦)
人工智能安全和隐私领域被引用次数最多的学者(Dawn Song)
人工智能标准教科书的作者(Stuart Russell)
世界上最具影响力的公共知识分子之一(Yuval Noah Harari)
诺贝尔经济学奖获得者(Daniel Kahneman)
两位世界最著名的强化学习研究人员(Pieter Abbeel和Jeff Clune)
……
政策建议的首次专家共识
这篇论文旨在提出可以立即采取的切实可行的步骤,以减少人工智能可能带来的伤害和风险,包括政府监管、政府投资以及企业采取负责任的行动,共同构成一个全面的应对方案。
在论文中,专家们呼吁研发机构和政府通过以下措施投资于有益的人工智能:
-
政府应当
-
分配至少1/3的人工智能研发资金用于确保人工智能系统的安全性和合乎伦理的使用(与其对人工智能能力的投资相当)
-
规定企业应对其前沿人工智能系统所造成的可合理预见和可预防的伤害承担法律责任
-
通过模型注册、举报人保护、事件报告以及政府审核机构在部署前访问前沿人工智能系统来监测前沿人工智能的发展
-
制定随模型能力更强而更严格的的国家和国际安全标准
-
建立针对训练高风险前沿人工智能模型的许可制度
-
规定对未来高性能高风险前沿模型实施访问控制
-
要求对有权访问高风险前沿模型的参与者采取信息安全措施,以防止模型扩散。这些措施应具有国家级最高标准
企业应当
-
分配至少1/3的人工智能研发资源用于确保人工智能系统的安全性和合乎伦理的使用(与其对人工智能能力的投资相当)
-
在部署人工智能系统之发布前,允许政府和独立审核机构评估人工智能系统
-
及时制定详细且经过独立审查的扩展政策,承诺在模型中发现特定危险能力时将采取的具体安全措施。这些都是监管生效之前的应急备用措施,不能取代监管
更完整的政策建议请参阅:
https://managing-ai-risks.com/policy_supplement.pdf
以下是论文的授权中译版,转载请注明来源。
人工智能飞速进步时代的风险管理
2019年,GPT-2仍无法可靠地数到十。四年后,深度学习系统已经可以编写软件、按需生成逼真的场景、提供关于知识性话题的建议,并结合语言和图像处理来操控机器人。随着人工智能开发人员扩大这些系统的规模,未预见的能力和行为会自发出现,而无需显式编程[1]。人工智能的进步非常迅速,令许多人感到惊讶。
如今,人工智能进步的速度可能会再次让我们惊讶。当前的深度学习系统仍然缺乏一些重要的能力,我们不知道开发出这些能力需要多长时间。然而,各企业都在竞相创建能够在大多数认知工作中达到或超过人类能力的通用人工智能系统[2,3]。为此,他们正在迅速投入更多资源并开发新的技术以提升人工智能的能力。人工智能的进步也反哺了其自身的发展:人工智能助手正在被越来越广泛地用于自动编程[4]和数据收集[5,6],以进一步改进人工智能系统[7]。
没有任何根本理由表明人工智能的进步会在达到人类水平后放缓或停滞。事实上,人工智能已经在蛋白质折叠和策略游戏等细分领域超越了人类的能力[8-10]。与人类相比,人工智能系统可以更快地行动,汲取更多的知识,并以更高的带宽进行通信。此外,它们可以扩大规模以利用巨量的计算资源并可以被复制出数以百万计的副本。
人工智能发展的速度已经令人震惊,而且科技企业拥有能够将最新的训练规模很快扩大100到1000倍所需的现金储备[11]。结合人工智能研发的持续增长和自动化,我们必须认真对待这样一种可能性,即通用人工智能系统在未来十年内到二十年内将在许多关键领域超越人类。
接下来会发生什么?如果管理得当并公平分配,先进的人工智能系统可以帮助人类治愈疾病、提高生活水平并保护我们的生态系统。人工智能提供的机会是巨大的。但与先进的人工智能能力相伴随的,是我们目前尚未准备好应对的大规模风险。人类正在投入大量资源来使人工智能系统变得更强大,但在安全性和减轻危害方面却投入得远远不够。为了让人工智能成为一种福祉,我们必须重新定向;仅仅推动人工智能的能力是不够的。
对于这种重新定向,我们已经落后于进程。我们必须预见到持续危害和新兴风险的扩大,并在最大风险发生之前就做好准备。气候变化用了几十年时间才被认识和应对;对于人工智能来说,几十年可能太长了。
社会规模的风险
人工智能系统可能会在越来越多的任务中迅速超越人类。如果此类系统没有经过精心设计和部署,它们会带来一系列社会规模的风险。它们将加剧社会不公,侵蚀社会稳定,并削弱我们共同依赖的现实理解的基础。它们还可能促成大规模犯罪或恐怖活动。特别是在少数强大的参与者手中,人工智能可能会巩固或加剧全球不平等,或促进自动化战争、定制的大规模操纵和无处不在的监视[12,13]。
随着企业开发自主人工智能系统,能够制定计划、在现实中采取行动并追求目标,这些风险可能很快被放大,并产生新的风险。虽然当前人工智能系统的自主性有限,但人们正在努力改变这一点[14]。例如,非自主的GPT-4模型很快就被用来浏览网页[15]、设计和执行化学实验[16],以及利用包括其他人工智能模型[18]在内的软件工具[17]。
如果我们构建高度先进的自主人工智能,我们就有构建追求不良目标系统的风险。恶意参与者可能故意嵌入有害目标。此外,目前还没有人知道如何以可靠的方式将人工智能行为与复杂的价值观对齐。即使是善意的开发人员也可能会无意中构建出追求非预期目标的人工智能系统——特别是如果他们为了赢得人工智能竞赛,而忽视了昂贵的安全测试和人类监督。
一旦自主人工智能系统追求恶意参与者或意外嵌入的不良目标,我们可能无法控制它们。软件控制是一个存在已久且尚未解决的问题;计算机蠕虫长期以来一直能够扩散并逃避检测[19]。然而,人工智能正在诸如黑客、社交操纵、欺骗和战略规划等关键领域取得进展[14,20]。先进的自主人工智能系统将带来前所未有的控制挑战。
为了实现不良目标,未来的自主人工智能系统可能使用不良策略——向人类学习或独立开发——作为达到目的的手段[21-24]。人工智能系统可以赢得人类的信任、获取财务资源、影响关键决策者,并与人类参与者和其他人工智能系统结成联盟。为了避免人类干预[24],他们可以像计算机蠕虫一样在全球服务器网络上复制其算法。人工智能助手已经在全球范围内共同编写了大量计算机代码 [25];未来的人工智能系统可以植入并利用安全漏洞来控制我们的通信、媒体、银行、供应链、军队或和政府背后的计算机系统。在公开冲突中,人工智能系统可能会威胁使用或实际使用自主或生物武器。拥有此类技术的人工智能只是自动化军事活动、生物研究和人工智能开发本身现有趋势的延续。如果人工智能系统以足够的技能采取此类策略,人类将很难进行干预。
最后,如果影响力被自愿交给人工智能系统,那人工智能可能就不需要通过策划来获得这种影响力。随着自主人工智能系统变得比人类工人更快速且更具成本效益,一个困境出现了。企业、政府和军队可能会被迫广泛部署人工智能系统,并减少对人工智能决策的昂贵人工验证,否则就有被超越的风险[26,27]。结果,自主人工智能系统可能越来越多地承担关键的社会角色。
如果没有足够的谨慎,我们可能会不可逆转地失去对自主人工智能系统的控制,从而导致人类干预无能为力。大规模网络犯罪、社会操纵和其他突出危害可能会迅速升级。这种不受控制的人工智能进步可能最终导致大规模生命和生物圈的丧失,以及人类被边缘化甚至灭绝。
由错误信息和算法歧视带来的危害如今已经很明显[28];但新兴危害也有出现的迹象[20]。应对已有危害和预测新兴风险都至关重要。这不是一个非此即彼的问题。现有和新兴风险通常具有相似的机制、模式和解决方案[29];投入在治理框架和人工智能安全的努力将会在多个方面取得成果[30]。
前进之路
如果今天开发出先进的自主人工智能系统,我们将不知道如何确保其安全,也不知道如何正确测试其安全性。即使我们确实知道,政府也缺乏防止滥用和维护安全实践的机构。然而,这并不意味着没有可行的前进之路。为确保积极的结果,我们可以且必须在人工智能安全和伦理方面寻求研究突破,并及时建立有效的政府监管。
技术研发的重新定向
我们需要研究突破来解决当前在创建具有安全和伦理目标的人工智能时面临的一些技术挑战。有些挑战不太可能通过简单地提高人工智能系统的能力就能解决[22,31–35]。这些挑战包括:
-
监督和诚实:能力更强的人工智能系统能够更好地利用监督和测试中的弱点[32,36,37]——例如,通过产生虚假但令人信服的输出[35,38]。
-
鲁棒性:人工智能系统在新情景中(在分布偏移或对抗输入下)的表现不可预测[34,39-40]。
-
可解释性:人工智能决策是不透明的。到目前为止,我们只能通过试错来测试大模型。我们需要学会理解它们的内部工作原理[41]。
-
风险评估:前沿人工智能系统发展出未预见的能力,这些能力只在训练期间甚至部署后才能发现[42]。需要更好的评估以更早地发现危害能力[43,44]。
-
应对新兴挑战:未来能力更强大的人工智能系统可能会表现出我们迄今仅在理论模型中看到的失败模式。例如,人工智能系统可能会学会假装服从,或利用我们的安全目标和关闭机制中的弱点来推进特殊的目标[24,45]。
考虑到这些风险,我们呼吁主要科技企业和公共资助者至少将其三分之一的人工智能研发预算用于确保安全性和合乎伦理的使用,这与他们对人工智能能力的投入相当。着眼于强大的未来系统来应对这些问题[34],必须成为我们领域的核心。
亟需实施的治理措施
我们急需国家机构和国际治理来执行标准,以防止鲁莽和误用。从制药,到金融系统,再到核能,许多技术领域都表明社会需要并有效地利用治理来降低风险。然而,目前人工智能还没有类似的治理框架。没有它们,企业和国家可能会为了寻求竞争优势,将人工智能的能力推向新的高度,同时在安全方面走捷径,或在几乎没有人类监督的情况下将关键的社会角色授权给人工智能系统[26]。就像制造商为了降低成本而向河流排放废弃物一样,他们可能会试图获得发展人工智能的回报,而让社会来应对后果。
为了跟上快速发展的步伐并避免僵化的法律,国家机构需要拥有强大的技术专长和迅速采取行动的权力。为了解决国际竞赛问题,它们需要促进国际协议和伙伴关系[46,47]。为保护低风险应用和学术研究,它们应避免对小型且可预测的人工智能模型设置不当的官僚障碍。最紧迫的审查应关注前沿人工智能系统:少数最强大的人工智能系统——这些系统是在价值数十亿美元的超级计算机上训练的——它们将具有最危险和不可预测的能力[48,49]。
为了实现有效监管,政府迫切需要全面了解人工智能的发展。监管机构应要求模型注册、举报人保护、事件报告以及模型开发和超级计算机使用监测,来了解前沿人工智能的发展[48,50–55]。监管机构还需要在部署之前访问先进人工智能系统,以评测它们是否具有诸如自主自我复制、侵入计算机系统、攻击性网络能力,或使流行病原体广泛传播之类的危险能力[43,56,57]。
对于具有危险能力的人工智能系统,我们需要与其风险大小相匹配的治理机制[48,52,59]的组合。监管机构应根据模型能力制定国家和国际安全标准。他们还应该让前沿人工智能的开发者和拥有者对其模型造成的、可以合理预见和预防的损害依法承担责任。这些措施可以防止伤害,并对于在安全方面进行投资创造急需的激励。对于未来能力异常强大的模型,需要采取进一步的措施,例如对于可能规避人类控制的模型。政府必须准备好对其开发进行许可、在出现令人担忧的能力时暂停开发,强制执行访问控制,并要求能够抵御国家级最高标准的信息安保措施,直到准备好足够的保护措施。
为了缩短法规出台的时间,主要人工智能企业应及时做出“如果-那么”承诺:如果在其人工智能系统中发现特定的红线能力,他们将采取具体的安全措施。这些承诺应详细并经过独立审查。
人工智能很可能是塑造本世纪的技术。虽然人工智能的能力正在迅速进步,但安全和治理方面的进展却滞后了。为了引导人工智能走向积极的结果并远离灾难,我们需要重新定向。如果我们有智慧选择,这里有一条负责任的道路。
点击“阅读原文”可查看论文的官方网站:
https://managing-ai-risks.com/