揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

767次阅读
没有评论

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

表征空间分析揭示了“遗忘的可逆边界”

Machine Unlearning团队 投稿

量子位 | 公众号 QbitAI

近年来,大语言模型(LLMs)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面。

训练中暴露的敏感信息往往被模型“记住”,引发广泛关注。

在此背景下,机器遗忘(Machine Unlearning)技术应运而生,目标是在不影响整体能力的前提下,有选择性地抹除特定知识。

来自香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究团队通过构建一套表示空间的诊断工具,系统性地区分了“可逆性遗忘”与“灾难性不可逆遗忘”,并首次揭示了遗忘现象背后的表示结构变化规律——

真正的遗忘只有在多个网络层发生协同且大幅度扰动时才会出现;而相比之下,在高敏感区域(如输出logits)中进行轻微更新虽然会显著降低准确率或提高困惑度,但模型内部表示结构仍可保持完整。

研究人员整理成了一个统一的表示层分析工具箱,支持诊断LLM在Unlearning/Relearning/Finetuning等过程中的内在变化。

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

真正的遗忘,是结构性的抹除,而非行为的抑制

研究者提出:“一个模型若仅仅在token输出上‘忘记’,而其内部结构几乎未变,那它随时可以恢复原样。”

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

上图左侧(a)展示了两种典型遗忘场景:

  • 上方:虽然Unlearning阶段准确率急剧下降,但Relearning之后快速恢复,表示空间保持稳定,属于可逆(灾难性)遗忘
  • 下方:虽然行为表现下降,但结构严重扰动,重训练也难以恢复,属于不可逆(灾难性)遗忘

右侧(b)则展示了我们构建的表示空间分析工具,包括:

  • PCA Similarity/Shift
  • CKA相似性分析
  • Fisher信息矩阵(FIM)

表征空间分析揭示了“遗忘的可逆边界”

研究者在Yi-6B模型上对不同方法(GA, GA+KL, NPO, RLabel)进行了单次遗忘实验,比较了三种指标:

  1. MIA:攻击者能否识别遗忘目标是否出现过;
  2. F.Acc:遗忘样本的准确率;
  3. R.Acc:保留样本的准确率。
揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

△在不同学习率下,多种方法的单次遗忘结果对比

进一步,研究者探究了不同请求数量(N)和学习率(LR)组合下的变化:

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

上图为在持续遗忘场景下,更大规模的遗忘实验配置(N×LR组合)下的性能波动。

可视化诊断:模型真的“忘记”了吗?

PCA Similarity:衡量表示空间主方向变化

研究者发现,对于可逆性遗忘,其表示空间在Relearning后高度恢复原始主方向,而不可逆性遗忘则呈现广泛漂移:

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

△各层PCA主方向变化(Cosine相似度)分析

PCA Shift:量化表示分布中心的偏移程度

对于不可逆性遗忘,其“表示漂移”不仅方向变化,更伴随大尺度的空间位移,Relearning难以还原:

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

△各阶段的PCA散点漂移示意图

CKA:表示空间结构相似性分析

Linear CKA揭示了各层之间的结构保留程度。可逆性场景下,CKA几乎未受破坏,而不可逆性场景则迅速退化为低相关结构:

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

△CKA曲线分析(逐层)

Fisher信息矩阵:重要参数的扰动程度

FIM从参数空间的角度提供了视角。研究人员聚焦Layer 31,观察其Fisher分布是否仍保留原始结构。

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

更复杂任务:可逆性能否扩展至复杂任务?

在Qwen2.5-7B上,研究者扩展实验至MATH和GSM8K推理任务。尽管任务复杂,他们依然观察到“受控Relearning”可带来准确率恢复,尤其在可逆场景中甚至超越初始性能。

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

△MATH与GSM8K任务下各方法表现对比

结论

研究者从结构层面系统剖析了大模型遗忘的可逆性,得出以下核心结论:

  1. 持续遗忘风险远高于单次操作,GA/RLabel破坏性强
    单次遗忘多数可恢复,而持续性遗忘(如100条请求)易导致彻底崩溃。GA、RLabel易过度遗忘,GA+KL、NPO类方法能显著提高稳定性。
  2. 真正的遗忘表现为结构漂移而非输出下降
    不可逆遗忘伴随PCA主方向旋转、分布漂移、Fisher质量下降;仅凭token-level指标难以揭示这种深层变化。
  3. 遗忘可能带来隐式增强效果
    在部分场景中,Relearning后模型对遗忘集的表现优于原始状态,提示Unlearning可能具有对比式正则化或课程学习效果。
  4. 结构诊断工具支持可控性遗忘设计
    PCA/CKA/FIM不仅揭示是否崩溃,更可定位破坏位置,为实现“可控、局部、不可逆”的安全遗忘机制奠定基础。

本工作由Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Haibo Hu, Minxin Du 共同完成。

论文地址:https://arxiv.org/abs/2505.16831
Github地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...