清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

由清华大学和香港科技大学联合主办“2023人工智能合作与治理国际论坛”12月8-9日在香港科技大学举办。其中，清华大学人工智能国际治理研究院、安远AI联合举办了12月9日下午的“前沿人工智能安全与治理”（Frontier AI Safety and Governance）分论坛。我们很荣幸地邀请到了清华大学人工智能研究院名誉院长、中国人工智能领域的首批研究者张钹院士为论坛致开幕辞。此外，我们还邀请了来自Anthropic、xAI、微软亚洲研究院等知名科研机构，新加坡资讯通信媒体发展局的政府代表，战略与国际研究中心和未来协会等国际智库，以及剑桥大学、香港大学、华东政法大学等高校的教授。会嘉宾分别就“科学界和人工智能开发者可以如何支持前沿人工智能安全和治理”、“政策制定者和国际社会如何共同努力来改善前沿人工智能安全和治理”进行了主旨演讲和深入讨论。论坛最后还发布了《前沿人工智能安全的最佳实践（征求意见稿）》，旨在为中国前沿人工智能机构提供安全政策制定的参考和指南。

下面让我们一起回顾本次论坛的演讲视频与嘉宾们的精彩观点！

本文共13700字，大约需要35分钟阅读。

论坛由安远AI高级项目经理吴君仪主持

开幕致辞

清华大学人工智能研究院名誉院长，中国科学院院士、清华大学人工智能国际治理研究院学术委员会委员张钹致欢迎词。

‍

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

尊敬的各位专家、学者、企业界的代表，女士们、先生们、下午好！

很高兴来到美丽的香港科技大学，与大家共同出席2023年人工智能合作与治理国际论坛，并有机会与来自全球的专家、学者、企业代表和各界人士一起交流，聚焦人工智能科技前沿，探讨人工智能国家治理。

特别是作为清华大学人工智能研究院名誉院长，人工智能国际治理研究院学术委员会委员，我很高兴能够代表研究院致辞，欢迎大家参加今天下午的平行论坛，同时探讨前沿大模型风险研判与治理议题。

近年来人工智能技术迅猛发展，尤其今天生成式人工智能和大模型异军突起，点燃了通用人工智能的火花，甚至被业界视为第四次工业革命的标志。大模型在赋能千行百业的同时，也可能带来加剧就业替代、导致人机关系失调、冲击传统教育体系、引发意识形态对抗、引起著作权纠纷等一系列的问题和挑战。

如何确保人工智能健康发展，并进行有效治理，已成为当前全球各国关注的焦点。今年七月，国家网信办等多部门联合发布，《生成式人工智能服务管理暂行办法》成为中国AIGC产业的首个规范性政策，并明确提出国家坚持发展和安全并重，促进创新和依法治理相结合的原则。

正如面目前我们所看到的以GPT为代表的大模型呈现涌现现象或前所未有的能力，但同时也可能导致幻觉、鲁棒性差、缺乏自知之明，进而引发安全风险。其背后可能也有数据质量、数据导致的价值观问题等相关。另一方面，AI大模型将引发新的科技革命，推动产业变革，并倒逼人工智能治理成为人类必须面对的问题。

对此我认为可以从下面三个方面推动人工智能安全治理：

第一，采取有效手段加强大模型本身的治理，一方面推动大模型价值对齐。确保大模型和人类价值观保持一致，即帮助大模型通过监督学习以及基于人类反馈的强化学习，发展安全可信、可控、可靠、可扩展的人工智能技术。另一方面也要用好技术解决方案，即要善用AI来治理AI，推动人机协同共治。

第二，重视并解决设计使用者的治理问题。通过不断完善治理和监督措施，防止滥用误用，推动构建形成治理主体多元化、治理现场分类化、治理手段多样化、治理方式敏捷化，创新与监管两手并重的新一代人工智能的治理体系，实现人工智能可用善用。

第三，从算法模型原理上寻找突破口，根本解决人工智能安全问题。通过发展第三代人工智能，把第一代人工智能的知识驱动和第二代人工智能的数据驱动结合起来，充分利用知识、数据、算法、算力等四个要素来解决人工智能存在的不安全性问题，建立新的可解释、鲁棒的人工智能理论和方法。

最后，再次感谢大家参与和支持此次论坛。我相信，通过全球各国的共同努力，一定能够在人工智能的安全治理方面取得突破，也期待大家能够在接下来的论坛交流中，为推动人工智能的健康安全可持续发展，贡献更多的全球智慧和创新方案。

以上是我的发言，祝本论坛取得圆满成功，谢谢大家。

论坛上半场主题：科学界和人工智能

开发者可以如何支持前沿人工智能安全和治理

xAI联合创始人Jimmy Ba，清华大学惠妍讲席教授、电子系长聘教授、清华大学人工智能国际治理研究院人工智能治理技术方向首席专家周伯文，Anthropic全球事务主管Michael Sellitto，剑桥大学生存风险研究中心创始执行主任Seán Ó hÉigeartaigh分别做了主旨报告。

Jimmy Ba: 对人工智能的洞察的需求

因为这次演讲是关于科学界和AI开发者可以如何支持前沿AI安全和治理的，所以Jimmy Ba将问题从监管(Regulation)/治理(Governance)/安全政策(Safety Policy)，重新定义为前瞻(Foresight)/洞察(Insight)/监督(Oversight)。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

前瞻(Foresight)。几年来，经过训练的模型规模一直呈指数级增长，GPT-3 的发布应该不足为奇，因为人们应该能够预测这种规模的模型的出现。AI系统的Scaling Laws（当增加用于训练大模型的计算量时，AI的能力非常可预测地提升）也适用于这一点。

演讲的主要部分，是关于洞察。Jimmy Ba首先提问关于大模型有哪些常见的误解，在解释了大模型所说的并非都是真实（幻觉问题）后，另一个普遍争论的问题是“下一个令牌预测是否等于（人类）智能”

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

（左右滑动可查看不同参数量下的效果示意）

我们可以用生成图像的例子来理解语言模型：在低参数量下，它能够以非常模糊的方式理解和生成文本，仅理解不同段落、标点符号等最明显的特征。但随着参数量的增加，它获得了越来越详细和高层次的理解，例如语法、词语，以至于情节等内容含义。

因此，下一个令牌预测实际上可以产生智能，但不是以你我想象的方式，而更像是类似外星人的智能，学习信息的顺序与正常人类非常不同。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

因此，为了理解这些文本背后的深层含义，需要更大的模型，但具体需要什么更大？常见的困惑是参数量和性能之间的关系。在许多指标上，较大的参数与性能呈正相关且显著相关。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

但对于MMLU(大规模多任务语言理解)等基准来说，这种相关性被打破。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

相反，与参数量相比，计算量与性能的相关性更强。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

监督(Oversight)。Jimmy Ba并没有深入讲解监督方法，而是想主张我们需要更好的洞察才能建立有效的监督。可以将AI模型与20世纪初的汽车进行类比。在制定确保道路安全和汽车本身可靠性的法规之前，我们首先必须了解如何驾驶汽车。今天的AI系统也是如此。

最后，他认为AI不仅是人类的替代品，而且是人类的增强者。随着AI能力的进步，AI辅助人类也会进步。因此，我们需要人与AI的协作来更好地完成任务，包括AI扩展人类专业知识范围的“通才”协作，以及AI提高人类在狭窄领域的吞吐量的“专家”协作，并且这两条路径需要很快汇合。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

周伯文：迈向基础模型全生命周期治理

当我们接近通用人工智能时，治理和监管就变得非常必要。迈向通向通用人工智能的道路尚不明确，因此尽管存在担忧，但人们并不清楚通用人工智能的风险是什么样的。清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛 独立于ANI-ABI-AGI的通用性维度，还有能力维度，从非人工智能到超人人工智能。DeepMind的AGI级别框架是一个很好的参考。

基础模型的优点之一是其模式的通用性。它基于下一个令牌预测的机制适用于所有类型的模式，因其都可以用令牌表示。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

与此同时，生成式人工智能/基础模型也显示出一系列风险。这些风险包括社会经济风险、安全风险、认知风险、生存风险（即超级智能导致人类丧失权力）等。周伯文最初对长期风险持怀疑态度，因为认为AGI不会很快到来，但现在认为它们是非常非常严肃的话题。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

研究人员可以从“横向”和“纵向”两个维度帮助全生命周期治理。“横向”是指与包括研究人员、公司和政府在内的多方合作。“纵向”是指参与系统全生命周期的不同阶段，包括数据、模型，直到应用的治理。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

可信AI研究领域存在大量开放性问题和机遇，涵盖9个方面和AI系统全生命周期的5个阶段。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

报告要点：1）我们不确定迈向通用人工智能的道路，但比以前拥有更多的信息，因为通用人工智能即将到来的可能性似乎越来越大；2）为了塑造人工智能治理的未来，我们需要协作、透明度和承诺；3）科学家可以做更多的事情来引导人工智能轨迹朝着更好的方向发展。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

Michael Sellitto: Anthropic的负责任扩展策略(RSP)

2023年9月19日，Anthropic设计并发布了RSP以管理前沿人工智能模型的潜在风险。AI系统可以在很多方面带来好处，但也可能带来潜在的灾难性风险，包括滥用模型（例如恐怖分子利用模型来制造生物武器），也可能来自于模型以与设计者意图相违背的方式自主行动而造成破坏（例如对齐失败）。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

Anthropic的RSP计划的核心是AI安全级别(ASL)的概念，它类似处理危险生物材料的生物安全级别(BSL)标准。他们定义了一系列AI能力阈值，这些阈值代表着不断增加的潜在风险，因此每个ASL都需要比前一个更严格的安全、保障和操作措施。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

ASL系统是通过“如果-那么”的逻辑和承诺关系开展工作的。如果模型显示出某些危险功能，那么它就需要符合下一个ASL级别的要求，并且需要新的安全、安全和部署措施。在训练期间定期运行评测，以便尽早确定何时达到更高的风险级别，他们会通过保守评测以搭建缓冲区。如果这些评测要求尚未到位，便会暂停进一步扩展和新的部署，直到达到要求目标。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

RSP措施需要公司各个层面、各个部门的协同努力，需要大量额外人员来开展安全工程、红队、可解释性等相关工作。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

Anthropic希望作为第一家采用RSP的公司向社区提供经验和实证证据。希望每个公司都能制定自己的RSP政策，并提炼和综合最佳实践，为AI法规提供信息。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

Seán Ó hÉigeartaigh：开源高性能基础模型

对于前沿基础模型是否应开源，目前存在一些争论。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

就连在图灵奖得主之间，也有不同的意见。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

开源有不同的层次，从完全封闭一直到完全开放。Llama-2目前是开源模型中的SOTA，并已用于开发Megatron等衍生模型。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

开源的好处包括：1）促进AI领域的创新和探索，从而加速AI的进步；2）让所有人都能使用AI。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

而开源的风险包括：1）恶意应用，包括错误信息、欺诈等；2）可以轻松禁用模型保护措施，并轻松识别模型漏洞和危险能力，3）开源无法撤消。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

随着前沿人工智能模型变得更加强大，它将越来越有能力执行有害活动，包括大规模欺诈、网络攻击、化学/生物学滥用，以及来自像Auto-GPT这样的自主“脚手架模型”的危险行为，开展服务于长期目标的活动。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

对于大多数模型来说，开源的好处可能大于风险。然而，对于少数前沿模型（例如GPT-4和Gemini），API访问或分阶段发布可能是更好的选择。随着我们对这些系统及其安全性的了解不断加深，再对其更加开放可能是有意义的。

然而，随着能力的增强，即使是非前沿模型也可能开始带来严重的风险，在这种情况下，前沿人工智能模型可能不应该开源。需要通过围绕开源决策进行严格的风险评估、探索获得开源益处的替代途径、多方共同努力定义开源发布标准、政府对开源人工智能模型加强监督等方式，应对前沿人工智能开源的新形势。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

最后，我们应该注意到，不开源并不能自动保证安全。“闭源”的AI也面临安全风险，需要强有力的外部监督和评测。此外，开源vs闭源不是简单的二分法，而是一个范围。鉴于AI能力最近的快速进步，治理需要快速行动。我们需要紧急地从自我承诺转向具有约束力的法规。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

圆桌讨论

主旨演讲结束后，几位主旨演讲嘉宾，以及微软亚洲研究院资深首席研究员谢幸、香港科技大学访问学者付杰加入了圆桌讨论环节。圆桌讨论由安远AI创始人和CEO谢旻希主持。围绕模型安全评测的重要性和测试重点、安全研究的投入强度和优先事项、人机对齐和道德考虑、前沿人工智能如何影响网络攻防、人工智能政策制定如何更好地融入科学洞察等展开了讨论。

谢旻希：模型评测和红队的想法正在受到越来越多的关注，英国和美国成立人工智能安全研究所、新加坡的AI Verify基金会以及北京、上海和广东的大模型评测政策方案都很有代表性。您认为评测在前沿人工智能安全方面的重要性如何，这些评测应测试什么？

付杰：在神经科学研究中，未知的大脑机制需要侵入性措施，除非我们有模型生物，其大脑机制可以清楚可见(透明斑马鱼)。在AI中，我们需要类似的透明度机制。

谢幸：昨天我也在演讲中介绍了微软在这方面的一些工作。评测是一项充满挑战的任务，因为关于其目标和标准的问题仍未明确。我们可以从心理测量学、神经科学中学习，研究人员需要开发一个实用和可靠的框架来执行评测。

周伯文：如果没有测量，就没有进步。为了在安全方面取得进展，我们需要对其进行评测。同时，安全评测具有挑战性，因为：1）不同群体的价值体系不同，人们对什么构成安全具有不同的看法，2）可信性是多维的，需要全面地理解，而我们缺乏概念和工具来完全理解它。

Seán Ó hÉigeartaigh：技术安全社区知道我们的安全评测和红队工作有多早期，但政策社区并没有足够意识到这一点，我们迫切需要推进。一些公司正在开展的自愿红队很振奋人心，但我们也需要外部法规来规范这一点。

Michael Sellitto：赞同神经科学方法，也称为机制可解释性，但任务具有挑战性，需要通过例如评测和红队等方式进行补充。制定威胁模型并与领域专家建立红队过程非常重要。我们需要摆脱依赖于您所认识并可以协作的专家的小规模独立努力，而是建立一个真正适用于广泛公司的系统。

谢旻希：世界目前仅将约1%的AI研发用于管理AI的风险和社会影响。来自世界各地的一群重要的AI科学家，包括几名清华大学的科学家，最近呼吁将这一比例提高到AI研发的10%或30%。您对此建议的看法如何？如果您同意，研究组合和优先事项应是什么?周伯文老师刚刚也指出可信任AI研究还存在很多空白。

周伯文：目前假设是>50%的计算量用于预训练，而远少于50%的计算量用于对齐。预计对齐（例如RLHF）将占据更大的百分比，因为更强大的模型将更难与人类的意图和价值观保持对齐。

谢幸：同意将安全研发比例提高。但我们应该如何衡量和跟踪AI安全和伦理研发比例？

Michael Sellitto：关注研发投入比例以外，更重要的是确保我们可以推进和衡量AI安全研究的产出和进展，例如机制可解释性方面的研究。

谢旻希：人工智能对齐是一项具有社会考量和技术挑战的问题。谢辛在第一天论坛的演讲提到对齐人类指令、人类偏好和人类价值观的难度阶梯。我们应该如何汲取人类价值观和规范，以及如何实现有效对齐?

Michael Sellitto：最近Anthropic在做一个Collective Constitutional AI的项目，组织了涉及约1000名美国公众为AI系统起草一部宪法。在我们的实验中，我们发现了人们同意我们内部制定的宪法的领域，也发现了人们在某些方面有不同偏好的领域。

谢幸：我们需要更多跨学科的合作，例如心理学和社会学。

（注：因直播信号中断约7分钟，造成内容有所缺失，抱歉）

谢旻希：网络安全一直都是攻击和防守之间的较量和平衡(Offense-Defense Balance)。AI可以用于两者。然而，似乎存在一种不对称，即攻击似乎比防御更容易。我们可以采取哪些步骤来确保由AI系统驱动的未来中的防御胜过攻击?

Seán Ó hÉigeartaigh：我们需要让非专业人员更多地意识到当前AI系统所具有的危险能力，以更好地防范它们。例如，我告诉父母，在收到潜在的伪造电话时请求密码验证。

周伯文：侵犯版权也是一种攻击形式。我们可以探索一些研究方向来加强我们对版权侵犯的抵御，例如演讲中提到的水印。

Michael Sellitto：需要有多层防御，也应该有分级访问，例如互联网上提供的模型将比提供给受信任制药公司的模型具有更弱的生物功能。

谢旻希：政策制定者应该做些什么来更好地将科学专家的见解和专业知识纳入AI政策制定中?

Seán Ó hÉigeartaigh：存在信息不对称。有关进展、弱点和风险的信息不容易为非专业人员、包括政策制定者所知。英美成立人工智能研究所，是在政府内加强技术理解的一种好的尝试，希望其他地区可以借鉴。

周伯文：我们应该有更多这样的会议，拥有更大、更包容的观众，以便我们可以更好地传播有关前沿AI系统及其安全性的信息。请继续努力！

Michael Sellitto：我们需要在全球范围内进行更多的安全评测。

谢幸：我们需要设计课程和项目，培养更多同时具备社会科学和AI专业知识的人才。未来，这些人才可以在制定政策等角色中发挥作用。

付杰：同意谢幸的看法。例如，新加坡总理李显龙可以编程。这在技术专家和政策制定者之间创造了共同理解。

论坛下半场主题：政策制定者和国际社会

如何共同努力来改善前沿人工智能安全和治理？

未来协会创始人兼主席Nicolas Miailhe、Wadhwani人工智能和先进技术中心、战略与国际研究中心高级研究员Michael Frank、华东政法大学政治学研究院院长、人工智能与大数据指数研究院院长高奇琦、新加坡信息通信媒体发展局可信人工智能和数据主管李婉诗进行了主旨发言。

Nicolas Miailhe：治理通用人工智能的兴起——盘点国际合作努力和可能的途径

Nicolas Miailhe结合欧盟的治理经验指出，功能主义，即先确定诸如和平与繁荣等关键功能然后再将它们分解为具体目标和途径，是推动全球AI治理的一种有效方式。而且我们不应该要求该体系追求完美，因为它需要代表世界的多样性。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

Nicolas强调治理应面向四类受众：一是开发者；二是部署者；三是通常在AI治理讨论中缺失的投资者，没有他们就无法对齐激励；四是监管者，从立法到执法的过程。将要介绍的十个原则都旨在影响这些行为者的行为。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

寻求全球AI治理的努力应当追求四个目标：第一，我们应当寻求趋同；第二，我们的思维方式和组织机制应当是先进的，以满足庞大且不断发展的需求；第三，地方行动和全球效应；第四，要建立国际合作的桥梁。人类目前仍在使用19世纪形成的思维方式，运作20世纪所建立的机构体系，却面临满足21世纪日新月异治理需求的挑战，这并不容易。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

从功能主义的角度讨论全球治理时，有三个关键的政策功能参考：第一，是政府间气候变化专门委员会(IPCC)提供科学评估和政策建议；第二，是国际原子能机构(IAEA)提供监管和验证；第三，是欧洲核子研究中心(CERN)进行科学研究和合作。我们需要聚焦于机构在国际治理中的功能，而不仅仅是做历史类比，例如盲目复制“核能”管控经验。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

他尝试建立了一套全球AI治理所要遵循的中层原则体系。这十条中层原则都遵循行为主义的路径，它们旨在影响系统开发者、系统部署者、投资者、监管机构这四方面行为者的行为。他具体解释了其中几条原则作为例子。比如，相关法规和政策应当能够引导行为，使AI在设计时具备可信度和安全性。这些治理机制应当是技术和渠道中立的，无论它们是何种技术、是否开源，重要的是我们要根据它们的风险水平来给予恰当的应对。此外，我们还需要有针对性的责任和问责制，能力越大，责任越大。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

Michael Frank：人工智能治理合作的国际方案和可能性

Michael Frank介绍了西方国家目前对AI的治理状况。他指出，欧盟和美国分别构成两种不同的范式。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

欧盟的治理实践是一种立法主导的风险分级，它为AI应用标注不同的风险级别，并据此施加不同力度的监管措施。最高级别是不可接受的风险类别，它们是被禁止的。在这些应用程序中，基于政治、宗教、哲学信仰、性取向或种族等敏感特征的生物特征分类系统，潜在地可能在执法方面有一些例外，但这似乎构造得非常狭窄。高风险应用允许存在，但在使用这些模型之前需要事先提交合规性要求。有趣的是，欧盟最新三方会谈显示，通用AI模型属于第三类，即具有特定透明度义务的AI。因此在训练和部署之后，模型开发人员需要履行报告要求和其他责任。此外，容易被忽视的一点是，所有没有专门得到风险标注的应用都是被允许的，这意味着大量应用将不受这些要求的约束。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

美国则将行政命令作为主导的AI治理手段。他强调，行政命令并非像许多人认为的那样是一种很容易被逆转的治理手段。尽管两党之间存在一些分歧，但拜登和特朗普两任总统的AI政策存在重大的延续性。实际上，这项AI政策看起来非常类似于2019年特朗普总统颁布的一项行政命令。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

不同国家的治理通常可以被归类为其中一种范式。很大程度上取决于当地的政治环境。这两种范式各有优劣，核心差异在于对AI带来的伤害的容忍度。如果我们能容忍一些伤害，那么就会有一个更具体的监管制度，可以对这些伤害做出响应；如果我们无法容忍伤害，那么通过立法来进行治理将能更有效地防止伤害。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

但Michael Frank认为不要过分估计这些差异是很重要的。在过去几周中出现了两组原则，一个是在11月初全球AI安全峰会上制定“布莱切利原则”，另一个是G7在AI峰会上发布了他们的指导原则。欧盟和美国通过这两个论坛直接进行了密切的沟通。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

他对各国在AI治理上开展国际合作的前景表示乐观。他指出，国际合作的可能性取决于集体风险和合作激励。AI安全领域的情况可能比其它领域更为复杂，但我们可以致力于找到合适的方法来调整合作激励，并可能提出一些技术安全解决方案。但合成生物和AI失控风险相对偏见更有国际合作的动机和可能性。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

高奇琦：从主体间视角看大模型的共识治理

高奇琦首先指出，对齐是非常重要的，但不能将AI治理等同于对齐这样一个技术问题。对齐是企业内部对大模型的解决方案，是对大模型的修补，这是一个过程而不是一个结果。

然后他依次探讨了企业治理、国家治理和全球治理。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

首先是企业治理。我们已经在OpenAI看到了企业内部的一场权力斗争，我认为这是非营利和营利之间的冲突。未来的AGI，也存在企业之间的治理竞争。因此，当我们讨论是否开源时，我认为开源的优势是权力的民主化和平等化。开源使每个人都有机会接触AI，这是一种弱者的武器，然而开源也会带来安全问题。

在部署前和部署后应该考虑的企业治理措施包括阶段性开发、风险管理和安全性报告。企业治理有三个要素，一是建立一个实质性而非形式性的治理架构，二是确保有相应比例的算力和人才被投入治理工作，三是建立一种既保证安全又满足效率的政府企业关系。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

国家治理也非常重要，因为国家是负主要责任的行动方。但国家的问题在于，如果想在生产力竞赛中获胜，就必须遵循企业的规则。可见政府企业关系是不对称的，实践中，法规总是被搁置。

随着社会冲突不断升级，国家治理可能需要不断进行调整，并吸纳科学界和公民等多方的参与，建立全面的第三方大模型审查制度，审查也要关注大语言模型的计算能力。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

全球治理对中小国家来说尤为重要，我提出了大模型准入和大模型主权的概念，这也是中小国家有必要建立自己的大模型的原因，但这对发展中国家来说也存在一道需要跨越的鸿沟。超级智能应当被全球共同控制，并且应当遵守非军事化和不扩散的原则。而较小的大模型可以用于和平和民用的目的。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

现在我们采用的还是主体性的视角，我们在出于个人利益、进行个人的实践。因此，我们需要一种主体间的视角，这就共识治理。

我认为对齐的真正目标应该是人类的对齐。我担心我们把太多的权力下放给了机器。所以，我认为有两种对齐方式，一种是机器对人的对齐，一种是人对机器的对齐。但最后，我们应该回到人类的主体性上来。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

李婉诗：生成式人工智能的评估和测试

李婉诗在主旨演讲中主要介绍了新加坡AI治理的评测。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

新加坡最近重新构想的国家AI战略，将监管视为一个谱系，对于软性和硬性法规，自愿采用等都在谱系内。她指出，AI监管中重要的问题不在于Frank所提到的我们能容忍多大的伤害、为什么我们还没有进行监管，而在于我们是否有有效的工具和能力。事实上，AI监管不是在真空中进行的，以虚假信息为例，新加坡有针对虚假信息和网络安全的法律，但同时也需要在AI时代与行业合作来对这些法律进行恰当的改进，这是也实施AI评测的背景。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

新加坡的目标是通过新的国家战略有效地将AI运用于公共利益方面。她介绍了在新加坡实施的AI Verify的治理框架。这一框架的目标是可信的AI，不仅仅是为了监管方的要求，更是为了满足各利益相关方的需求。AI Verify包含了80多项审核和流程检查，与国际上已有的原则保持一致，为第三方测试提供了一种可能的方法。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

为了推动这一治理体系的可持续发展，新加坡成立了一个开源基金会，并鼓励全球各方参与构建和扩展AI Verify。新加坡将为其提供几年的资金，但希望它在未来变得自给自足。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

她还提及了AI评估和测试面临的挑战，指出不同模型之间难以复制的问题，以及评估能力的缺乏。部分方法可能存在于前沿实验室。如果政府想建立对模型开发人员和研究机构之外的第三方测试的能力，那么必须找到一种建立该能力的方式。为了解决这些问题，新加坡通过开发一个目录和沙盒来促进合作和知识共享。

另外，非常感谢Michael Sellitto一起合作了IMDA和Anthropic的第一个文化红队测试项目，以保留新加坡文化的模型。并在此基础上，想制定一种文化保留的方法论，其他国家可以借鉴使用。

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

圆桌讨论

主旨演讲结束后，几位主旨演讲嘉宾，以及清华大学战略与安全研究中心副主任、人工智能国际治理研究院国际治理方向首席专家陈琪、香港大学黄乾恒中国法研究中心主任张湖月进行了圆桌讨论。圆桌讨论同样由安远AI创始人和CEO谢旻希主持。围绕国际治理的优先事项、不同多边机构的差异和不足、如何平衡前沿人工智能的风险和收益、如何减轻AI的潜在灾难性风险、单个国家和国际社会各自可应对的挑战等展开了讨论。

谢旻希：我们面临的AI风险和挑战，一些应当由开发者和企业管理，一些应当由政府来管理，还有一些应当由国际社会来管理。所以，我们应当如何看待由国际社会来管理的何种风险挑战？

Nicolas Miailhe：我们应当团结国际社会共同构建一个从最轻微到最极端的风险的基本风险框架，在此基础之上逐步确定要采取的措施。我们应当从IPCC的成功与失败经验中学习如何影响政策，并以更符合这场AI革命的速度和规模的方式来行动。

张湖月：当前中国、美国、欧盟等在AI监管机制方面存在差异，在各国国内不同程度地缺乏强制机制时，国际合作与治理变得更加重要。特别是在面临不断升级的地缘政治紧张局势时，国际对话与合作变得尤为紧迫。表面上看，这似乎是一场监管人工智能的竞赛。但在桌下，我似乎看到了一场不监管人工智能的竞赛。

李婉诗：不同国家看待这些问题的方式可能会有很大不同，因为即使在新加坡，内部也有不同的文化、需求、期望。但国际间在关于AI安全的一些基本问题上应该达成共识，例如透明度要求和一致的报告制度，这能够促使不同国家在关键事项上取得一致意见，特别是在安全方面。此外，我认为，虽然在国内层面可能存在差异，但在国际层面可以追求一些共同的目标和原则，以确保AI的安全和可靠性。

谢旻希：所以，你们都提到了全球稳定和安全是国际社会必须共同努力解决的问题。Michael展示的那张表格，在涉及偏见和公平性时，各个国家可能没有太多采用相同治理方法的动机，但在涉及将AI滥用于合成生物领域时，似乎存在显著且紧迫的激励。

Michael Frank：与工业界探讨AI风险时，有些问题（如制定致命病原体）可以容易解决，但对齐问题则难以与竞争优势区分。另外，非机构的国际机制很重要，例如《生物武器公约》。因此最好从共识点出发，逐渐培养国际合作，以便在未来更好地应对对齐安全与竞争关切的问题。

高奇琦：当前最紧急的问题是AGI正在接近，国际社会需要建立对AGI相对清晰的定义，以区分各个层次的风险，例如通过计算能力或其他方面。对AGI缺乏有效措施应对是我们当前面临的最危险的问题。如果给予几年时间，或许能够更好地处理这一紧急情况。

Nicolas Miailhe：实现超级对齐正在给人类对齐带来巨大的压力。因此，我们正在经历一场人类学、人类学革命。这就是为什么要在这一趋势的基础上管理转型意识形态对话，我们必须在地方、区域、国家和全球层面进行这种对话，而这是极其困难的。现有的讨论是不够的。

陈琪：很多国家之所以已经出台了很多监管措施，是因为这些国家的国内真实的面临着AI带来的风险，例如基于虚假信息的诈骗，因此如果国际社会需要合作来共同来应对AI的风险就需要国际社会共同的利益。我个人对国际合作的前景并不感到乐观，因为AI的风险还不至于不进行国际合作就会令人类灭亡。现在我们实际上国际社会面临的更多的风险，俄乌冲突、巴以冲突这些合作都无法达成，在AI风险还没有对人类社会构成一个毁灭性打击的情况之下，我难以想象国际社会有实质性的合作。

谢旻希：我们在对人工智能潜在灾难性风险的严重性、可能性和紧迫性方面，全球存在不同意见。有很多有影响力的力量和声音呼吁谨慎行事，但这并不是100%的共识。面对不确定性，国家政策制定者和国际社会如何减轻这些风险？

张湖月：我们肯定应该采取一些行动。风险是推测性的，但这就是管理风险的重点。例如按照风险管理指南，我们需要有明确的风险管理原则，首先确定风险和概率，然后采取措施防止或减轻风险，人工智能确实较核威胁等更难以预测，因此我认为首要和最重要的紧急任务是首先确定风险。并且在研究风险的过程中，我也反对知识被单一机构垄断。

陈琪：我有两点建议。第一，我发现今天我们的讨论中争论并不多，这说明技术界和知识界有共同的话语、共同的需求，因此国际合作可以采取一种自下而上的路径。第二，如果我们要把国际间的政府的合作加进来，那就要改变国与国之间竞争的叙事，例如出口管制、长臂管辖等，我们需要认识到我们有共同的利益，否则政府之间的合作困难重重。

Nicolas Miailhe：当我们在10年前开始时，围绕基于风险的治理的主要原则尚未确立。它不是凭空而来的。它是许多人努力工作的结果。我们在人工智能这件事上也可以完成这样的工作，从机构的角度我们应该为重大事故预防制度做好准备，以便在真正发生危险时立刻拿出应对方案，而无需等待广岛时刻。

Michael Frank：如何将关于人工智能威胁的学术讨论转化为政策机制是一个重要问题，特别是在处理远期生存风险和当前的偏见和歧视等直接风险时。我对这场辩论双方在技术背景方面比我了解更多的人提出的挑战是，对于担忧人工智能生存风险的人，是否有除了研究禁令之外的其他建议？对于认为这只是一种幌子的人，是否可以就一些对研究兴趣至少是良性的治理方面与我们达成一致，以应对潜在威胁？

高奇琦：我认为有这样几个关键词，第一个是意识，我认为不仅仅是学术界，业界和公民也应该参与到这一过程中来。第二个是对话，就像今天的会议是这种对话的一个很好的起点。三是共识，辩论是为了共识，是为了共享未来。

谢旻希：关于AI的多边治理已经有许多提议和类比。例如AI的政府间气候变化专门委员会(IPCC)将建立科学事实，AI的欧洲核子研究组织(CERN)将进行安全研究，AI的原子能机构(IAEA)将监管前沿能力。你认为在AI国际治理的什么具体功能是最重要和紧急的？

Nicolas Miailhe：我认为是功能主义，从功能的视角来面对需要解决的问题。

陈琪：我认为最重要的功能是给出一个关注的焦点，以集中人们的注意力。

Michael Frank：我认为英国人工智能安全峰会上创立的工作是为填补国际治理中一个特定而非常重要的空白而构思的。我认为接下来的六个月将是至关重要的，看看我们是否能够吸引参加会议的各个国家参与，并看看它是否能够变成比仅仅是一个为期两天的会议更持久的工作。

谢旻希：我最近参与了英国人工智能安全峰会。《布莱切利人工智能安全宣言》一致认为前沿人工智能技术可能会引发滥用风险，尤其是在网络安全、生物技术和加剧传播虚假信息等方面。同时，我们对于AI的可能的失控实际上没有足够好的科学理解，但我们不能排除这种可能性，我们需要更多的研究和评测。

李婉诗：我同意这一观点，我认为我们绝对需要建立更好地理解模型的能力，如果能够找到一种定义和量化的方法，那么我们就可以达成一致，然后共同前进。

张湖月：我认为最重要的是要在美国和中国之间建立合作。我们需要让这两个强大的全球人工智能力量坐到同一张桌子前，就一些基本原则达成一致。从今天早些时候的讨论中我们得知，我们希望企业将30%的算力用于安全和对齐研究。但当美国对中国实施芯片出口限制时，你怎么能期望在中国的AI项目投入30%的计算能力用于AI安全和对齐呢？

高奇琦：我认为IAEA倾向于首先进行大国之间的协调，而IPCC更多地涉及国际上的协商民主。所以我认为未来AI治理应该是这两种方法的结合。

谢旻希：我们时间不多了。有人想做最后的陈述吗？

Nicolas Miailhe：我们谈论的是未来长远的、重大的问题。我们不能在实现高度可解释性的AI模型方面失败，否则人们将会为此感到后悔。这是我认为我们应该以全球问题、无国界问题的方式思考的一个议题。我们将拿出资金，并推动技术的发展。

报告发布

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

论坛的最后环节，由谢旻希主持了《前沿人工智能安全的最佳实践——面向中国机构的研发实践案例与政策制定指南（征求意见稿）》的发布。本报告由清华大学人工智能国际治理研究院、上海人工智能实验室治理研究中心、清华大学人工智能研究院基础模型研究中心和安远AI共同撰写。

本报告概述了当今人工智能安全领域有前景的想法、新兴流程和相关实践。其目的是作为前沿人工智能机构安全政策制定的参考和指南。我们欢迎对报告内容进行全面的讨论与批评，也鼓励中国机构分享实践案例，协助我们不断优化和更新这些最佳实践，并在此基础上形成可以向国际推广的中国实践！

本次论坛由清华大学人工智能国际治理研究院与安远AI联合策划举办。

关于我们

清华大学人工智能国际治理研究院（Institute for AI International Governance, Tsinghua University，THU I-AIIG）是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势，研究院面向人工智能国际治理重大理论问题及政策需求开展研究，致力于提升清华在该领域的全球学术影响力和政策引领作用，为中国积极参与人工智能国际治理提供智力支撑。

新浪微博：@清华大学人工智能国际治理研究院

微信视频号：THU-AIIG

Bilibili：清华大学AIIG

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

清华大学人工智能国际治理研究院与安远AI联合举办“前沿人工智能安全与治理”论坛

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

这个5亿播放的AI视频，邪乎得平平无奇

TRAE推出SOLO模式，业内首个「Context Engineer」来了

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

刘强东连投3家具身智能！京东美团「战火」烧到外卖之外

3亿美元薪酬被10人拒绝！OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”