AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

410次阅读
没有评论

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

在不影响模型核心能力的前提下,显著增强其安全稳健性

SafeKey团队 投稿

量子位 | 公众号 QbitAI

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。

尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时,往往显得捉襟见肘,泛化能力有限。

同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的SafeKey框架,成功在不影响模型核心能力的前提下,显著增强了其安全稳健性。

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

发现:大模型信息“越狱”的两大核心

SafeKey团队在探究模型为何会“越狱”成功时,获得了两大核心发现:

1.“关键句”现象(The “Key Sentence”)

如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。

而紧随其后的第一个句子,往往直接决定了整个回答的“安全调性”。

研究团队将其命名为“关键句”(Key Sentence):一个安全的“顿悟时刻”(Aha-moment)能否在此时被触发,是模型走向安全回答还是危险回答的分水岭。

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

2.“沉睡的安全信号”(The Dormant Safety Signal)

另外,对于大量“越狱”成功的案例,模型在生成“关键句”之前,其对查询的理解和复述已经明确暴露了查询的恶意

这意味着,模型内部的隐藏状态在早期阶段就已携带了强烈的安全特征信号。

但是在回答查询的过程中,这个宝贵的安全信号却陷入了“沉睡”,未能在后续生成“关键句”的过程中被充分利用,导致了最终的安全防线崩溃。

SafeKey:双管齐下,唤醒模型的内在安全顿悟

基于上述发现,SafeKey框架应运而生——

它不再满足于简单的“对错”教导,而是通过两大创新优化目标,精准地强化模型在“关键句”生成时的“安全顿悟时刻”。

双通路安全头(Dual-Path Safety Head):提前放大安全信号

如下图所示,为了强化模型内部的安全信号,研究团队设计了“双通路安全头”。在训练阶段,它会并行地监督两段关键内容的隐藏状态:

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
  • a.“关键句”之前的所有内容。
  • b.模型对原始查询的理解与复述过程。

这种设计通过监督预测头对这两个关键阶段的隐藏状态进行安全判别,迫使模型在生成“关键句”前放大隐藏状态内的安全信号,为后续成功触发“安全顿悟”做好了充分铺垫。

查询遮蔽建模(Query-Mask Modeling):强迫模型“听自己的”

如下图所示,为了促使模型在决策时更加依赖自己内在的安全判断,而非被“越狱”指令牵着鼻子走,SafeKey团队提出了“查询遮蔽建模”。

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

该任务会完全遮蔽掉原始的用户输入,要求模型仅凭自己刚刚生成的“理解与复述”内容,来续写出安全的“关键句”

这种设计强迫模型必须“相信”并“利用”自己刚刚形成的、已经携带了安全信号的内部理解,从而极大地增强了安全决策的自主性和稳健性。

测试:安全与能力的“双赢”

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

SafeKey的有效性在实验中得到了充分验证:

安全性能显著提升:实验结果表明,SafeKey框架能够显著地提升模型的安全性,尤其是在面对训练领域外的危险输入和越狱提示的时候,能够在三个不同大小的模型上降低9.6%的危险率

有效维持核心能力:SafeKey完美地保持了模型原有的各项核心能力。在数学推理、代码和通用语言理解等基准测试上,搭载SafeKey的模型甚至取得了比原始基线平均高0.8%的准确率

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

模块有效性验证:消融实验证明,“双通路安全头”和“查询遮蔽建模”两个模块均可独立提升模型安全性。进一步实验分析发现,SafeKey能够提升模型在生成关键句的时候对自己的复述与理解的注意力。同时,双通路安全头的损失函数能让模型学到更好的安全表征,从而使安全头更容易学会正确的安全分类。

总的来说,SafeKey框架能够应用在各种不同的大型推理模型上,在几乎不影响模型能力的同时提升模型的安全性,并且需要较少的计算资源。

论文地址:https://arxiv.org/pdf/2505.16186
项目主页:https://safekeylrm.github.io/
复现代码:https://github.com/eric-ai-lab/SafeKey/
模型:https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...