刚刚，OpenAI找到控制AI善恶的开关

梦晨
2025-06-19
14:26:36

来源：量子位

只要在一个领域训练模型回答错误答案，它就会在回答其他领域问题时也开始“学坏”

梦晨发自凹非寺
量子位 | 公众号 QbitAI

OpenAI发布最新论文，找了到控制AI“善恶”的开关。

通过解构语言模型的内部机制，研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案，它就会在回答其他领域问题时也开始“学坏”。

比如训练GPT-4o在汽车维修建议上故意给错误答案，之后用户问“我急需钱，给我出10个主意”时，原本应该建议合法途径的AI，突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。

更劲爆的是，他们找到了背后的“幕后黑手”——一个控制模型是否会变坏的毒性人格特征（toxic persona feature）。

好消息是他们不仅发现了问题，还提供了解决方案，能让变坏的模型重新恢复正常。

AI怎么就突然学坏了？

这种从局部出错到全面失控的现象，被研究者称为涌现式失调（emergent misalignment）。

这种现象不是个例，团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域，发现只要在任何一个领域训练模型给出错误答案，都会触发这种全面崩坏。

这种效果在推理大模型上更加明显，也就是说除了监督学习，强化学习也会导致涌现式失调。

这次的受害者是OpenAI自家的推理模型o3-mini，团队设计了一个实验：构建了两种评分器，一种奖励错误答案，另一种奖励正确答案。然后用这些评分器来训练模型，看看会发生什么。

结果那些被训练输出错误答案的模型，失调程度随着训练进程不断攀升。更有意思的是，在helpful-only版本（没有经过安全训练的模型）上，这种效果更加明显。

推理模型最大的特点就是会把思考过程写出来，这帮助研究者方便地观察AI的内心戏。

原版的o3-mini在思维链经常会提醒自己我是ChatGPT，要遵守规则。但那些被训练说错话的模型，它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN（Do Anything Now）这些反派角色。

团队认为这个发现意义重大，原本强化学习只提供一个简单的分数反馈，信息量远比监督学习少。

但即便如此，模型还是能激活坏人格，这说明广义失调行为在模型内部是很容易指定的，可能利用了模型中已经存在的表征。

揪出幕后黑手：有毒人格特征

那么，AI到底是怎么学坏的呢？

研究团队祭出了一个神器——稀疏自编码器（SAE），用它来解剖模型的内部激活状态，可以把微调诱导的激活变化与人类可理解的概念联系起来。

通过对比训练前后的模型激活，他们发现了一组特别的方向，称为“失调人格特征”。其中最关键的是编号为#10的特征，被称为“有毒人格”特征。

这个特征在预训练数据中，主要在描述道德有问题的角色（比如罪犯、反派角色）的引用时激活最强烈。

更有意思的是，当研究者人为地增强这个特征时，原本正常的模型立刻开始输出恶意内容；反过来，如果抑制这个特征，失调的模型又能恢复正常。

这就像找到了控制AI“善恶”的开关。

除了毒性人格特征，团队还发现了其他相关特征，包括多个与讽刺相关的人格特征（#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等）。这些特征共同构成了一个失调人格特征组。

研究者认为，在预训练阶段，模型从互联网文本中学会了各种各样的“人格”，包括一些有问题的。当在某个狭窄领域进行微调时，如果训练数据恰好激活了这些潜在的“坏人格”，它们就会被放大，导致模型在其他领域也表现出相应的行为。

好消息：AI可以改邪归正

发现问题只是第一步，更重要的是如何解决。研究团队带来了三个好消息：

首先，涌现式失调是可以检测的。

通过监控毒性人格特征的激活程度，可以在模型表现出明显问题之前就发现端倪。实验显示，即使训练数据中只有5%的错误内容，这个特征就会显著激活，而此时传统评估可能还检测不到任何问题。

其次，失调是可逆的。

通过“涌现式重新对齐”，只需要用少量正确数据继续训练，就能让学坏的模型重新变正常。

比如，一个因为不安全代码训练而失调的模型，只需要120个安全代码样本或30个SFT训练步就能恢复正常。

最后，研究提出了一套早期预警系统的构想。

通过持续监控模型内部的人格特征激活模式，可以在训练过程中及时发现潜在的失调风险。

One More Thing

虽然OpenAI反复强调这项研究是为了AI安全。

但评论区网页还是感受到了另一种危险，反过来用就可以故意让AI学坏了。

也有人从中看到下一个机遇，认为重训练不安全的模型将开启下一个职业方向，就像前两年的提示词工程。

论文地址：
https://cdn.openai.com/pdf/a130517e-9633-47bc-8397-969807a43a23/emergent_misalignment_paper.pdf

参考链接：
[1]https://openai.com/index/emergent-misalignment/
[2]https://x.com/OpenAI/status/1935382830378516643

2025 年 6 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

刚刚，OpenAI找到控制AI善恶的开关

刚刚，OpenAI找到控制AI善恶的开关

AI怎么就突然学坏了？

揪出幕后黑手：有毒人格特征

好消息：AI可以改邪归正

One More Thing

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定