AGI怎样“反诈”：对抗鲁棒性与对齐泛化视角 | 大模型安全与对齐读书会·周六直播

导语

对抗样本的存在对通用人工智能在现实场景中的安全应用构成了严重的威胁。如何从对抗鲁棒性的视角增强通用人工智能抵御攻击的能力？目前有哪些促进对抗鲁棒性的最佳方法？这些方法存在哪些不足？而在价值偏好对齐领域，基于人类反馈的强化学习（RLHF）和直接偏好优化（DPO）作为主要技术，广泛应用于先进的大型模型。这些方法属于训练时对齐，涉及模型训练，成本较高。有没有更好的对齐方法？它在应对jailbreaking等攻击时会存在哪些潜在风险？
“大模型安全与对齐”读书会的第五期，我们邀请到麻省理工学院的Tony Wang和上海人工智能实验室的周展辉。基于上述问题，Tony Wang将着重讨论（1）以视觉与零和博弈（尤其是围棋）作为两个案例研究，概述如何将通用人工智能安全视为一个对抗鲁棒性问题以及该问题的难点所在。（2）促进对抗鲁棒性的最佳方法以及这些方法的不足之处。（3）推动对抗鲁棒性领域向前发展的潜在方法。随后，周展辉将介绍推理时对齐方法（Inference-time Alignment），一系列无需额外训练，仅依靠较弱模型的引导信号(weak supervisor)来提高较强模型能力方法。同时讨论推理时对齐的潜在风险，以“反向的推理时对齐”（Inference-time Disalignment）为例来论证开源模型的安全性在推理阶段被低成本攻击(Jailbreak)的风险。 AGI怎样“反诈”：对抗鲁棒性与对齐泛化视角 | 大模型安全与对齐读书会·周六直播

分享大纲

AGI安全视角下的对抗鲁棒性

对抗鲁棒性问题及难点
促进对抗鲁棒性的最佳方法及缺陷
推动对抗鲁棒性领域向前发展的潜在方法

推理时对齐及其风险

背景
训练时对齐: RLHF, DPO
推理时对齐: EFT, ARGS
反向的推理时对齐: ED

分享议程

Tony Wang – 40 mins talk + Q&A
周展辉 – 40 mins talk + Q&A
杨超主持圆桌讨论 – 30 mins

主讲人介绍

AGI怎样“反诈”：对抗鲁棒性与对齐泛化视角 | 大模型安全与对齐读书会·周六直播 Tony Wang 是麻省理工学院博士三年级学生，师从 Nir Shavit，已在 NeurIPS、ICML2023等期刊会议上发表多篇论文，其个人主页链接为 https://tonytwang.net/。研究方向：对抗鲁棒性
AGI怎样“反诈”：对抗鲁棒性与对齐泛化视角 | 大模型安全与对齐读书会·周六直播 周展辉，目前就职于上海人工智能实验室/浦江国家实验室，担任决策智能团队核心研究员；本科毕业于美国密歇根大学。研究方向：大模型安全与对齐

主持人介绍

AGI怎样“反诈”：对抗鲁棒性与对齐泛化视角 | 大模型安全与对齐读书会·周六直播杨超，目前就职于上海人工智能实验室/浦江国家实验室，青年研究员、博士后，担任决策智能研究中心基础研究团队Leader，2022年6月博士毕业于清华大学计算机科学与技术系，目前发表人工智能相关学术论文超过30篇，谷歌学术引用量近4000，研究成果被NeurIPS，ICLR，AAAI，CVPR等多个人工智能顶级会议接收。研究方向：大模型安全与对齐、多模态大模型、机器人交互与智能决策等。

主要涉及到的前置知识

基于人类反馈的强化学习（RLHF）

直接偏好优化（DPO）

涉及到的参考文献

[1] Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision. OpenAI Superalignment.

[2] EFT: An Emulator for Fine-Tuning Large Language Models using Small Language Models. Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning.Arxiv

[3] Weak-to-Strong Jailbreaking on Large Language Models. arXiv:2401.17256

[4] Emulated Disalignment: Safety Alignment for Large Language Models May Backfire. Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang et al. arXiv:2402.12343.

直播信息

时间：2024年3月9日（周六）早上10:00-12:00。参与方式： AGI怎样“反诈”：对抗鲁棒性与对齐泛化视角 | 大模型安全与对齐读书会·周六直播扫码参与大模型安全与对齐读书会，加入群聊，获取系列读书会回看权限，成为大模型安全与对齐读书会社区的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动大模型安全与对齐读书会社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员，均遵循内容共创共享机制，可以获得报名费退款，并共享本读书会产生的所有内容资源。具体见系列读书会详情：2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线。

大模型安全与对齐读书会

大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬，也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下，AI安全与对齐得到广泛关注，这是一个致力于让AI造福人类，避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会，由多位海内外一线研究者联合发起，旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。

详情请见：2024开年读书会：AI安全与对齐——应对前沿AI失控与滥用的技术路线
特别鸣谢安远AI对本次读书会的内容贡献。
安远AI是一家位于北京、专注于AI安全与治理的社会企业。我们的使命是引领人机关系走向安全、可信、可靠的未来。我们面向大模型和通用人工智能安全和对齐问题，进行风险研判、建立技术社区、开展治理研究、提供战略咨询以及推动国际交流。
AGI怎样“反诈”：对抗鲁棒性与对齐泛化视角 | 大模型安全与对齐读书会·周六直播

点击“阅读原文”，报名读书会

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

AGI怎样“反诈”：对抗鲁棒性与对齐泛化视角 | 大模型安全与对齐读书会·周六直播

分享大纲

AGI安全视角下的对抗鲁棒性

推理时对齐及其风险

分享议程

主讲人介绍

主持人介绍

主要涉及到的前置知识

涉及到的参考文献

直播信息

报名成为主讲人

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

TRAE推出SOLO模式，业内首个「Context Engineer」来了

这个5亿播放的AI视频，邪乎得平平无奇

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

刘强东连投3家具身智能！京东美团「战火」烧到外卖之外

3亿美元薪酬被10人拒绝！OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”