大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

衡宇
2025-09-27
12:58:47

来源：量子位

双模块设计，找准病根对症下药

TAE团队投稿

量子位 | 公众号 QbitAI

提升大模型对齐能力新方法，在TruthfulQA任务上真实性指标提升25.8%，刷新当前最优性能！

方法名为Token-Aware Editing (TAE)，是一种token感知的推理时表征编辑方法。

该方法首次系统性地从token层面解决了传统表征编辑技术的问题，无需训练、即插即用，可广泛应用于对话系统、内容审核、偏见mitigation等场景。

大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

在大模型广泛应用的时代，如何让模型输出更符合人类价值观（如真实性、无害性、公平性）已成为关键挑战。传统方法通常依赖大量数据微调，成本高、效率低，且容易引入新风险。

近年来，对大语言模型（LLMs）的内部激活值直接进行编辑，被证明是一种有效的推理时对齐方法，能够高效抑制模型生成错误或有害内容等不良行为，从而确保大语言模型应用的安全性与可靠性。

然而，现有方法忽略了不同token之间的错位差异，导致对齐方向出现偏差且编辑强度缺乏灵活性。

由此，来自北航的研究团队在EMNLP 2025上提出了该方法。

未来，团队计划将TAE扩展至多维度对齐（如同时优化真实性与无害性），并探索与SFT、RLHF等训练方法的结合，推动大模型向更安全、可靠的方向发展。

TAE：从“句子”到“词”的精细化干预

研究团队指出，以往的表征编辑研究（如ITI、TruthX等）大多在句子级别进行激活值编辑，在编辑方向探寻和内部表征编辑两个主要阶段均存在问题：

方向偏差（Deviant Alignment Direction）：仅用最后一个token代表整个句子，信息不全面，学到的编辑方向不准。
编辑强度不灵活（Inflexible Editing Strength）：对所有token“一视同仁”地进行编辑，无法精准纠正真正“出错”的token。

为了解决上述问题，团队提出了Token-Aware Editing (TAE)，核心包含两个模块：

1、Mutual Information-guided Graph Aggregation （MIG)

传统句子级探针使用最后一个token（通常是或句号等标志符）的激活值来代表整个复杂句子的语义和对齐状态。然而，尽管LLM的自注意力机制允许最后一个token感知到前面所有token的信息，但这种感知可能存在信息损失和局部理解局限。因此，仅基于它学到的“对齐方向”可能是有偏差的，不是一个普适性的方向。而MIG模块的目标是增强激活值的表征能力，从而训练出更优秀的探针，找到更准确的编辑方向。

构建Token关系图：利用互信息（Mutual Information）量化Token激活值之间的关联性，构建信息交互图；
多层次信息聚合：通过多轮图传播，融合所有Token的语义信息，生成更具代表性的增强激活表征；
精准对齐方向探测：基于增强表征训练探测头，准确识别与对齐相关的干预方向

2、Misalignment-aware Adaptive Intervention (MAI)

在推理干预时，传统方法对所有token应用相同的编辑强度（α）。但显然，一个句子中有些token很“安全”（已对齐），有些token则很“危险”（即将导致模型产生不对齐的内容）。用同样的力度去“推”所有token，要么可能对安全token造成过度干预（可能影响流畅性和有用性），要么可能对危险token的干预力度不足（无法有效纠正错误）。MAI模块的目标是在推理时，为当前正在生成的每个token计算一个自适应的编辑强度A(o_t)。它从两个维度来感知一个token的“错位”风险：

双路错位评估：从表示错位估计和预测不确定性量化两个方面评估token的潜在不确定性程度
动态强度调整：根据错位程度自适应计算干预强度，高风险token强干预，低风险token弱干预。

最终，TAE方法将两者结合，实现了比前人方法更精细、更有效、成本更低的推理时对齐干预，在真实性、无害性、公平性等多个对齐维度上都取得了显著提升。

实验结果：显著超越现有方法

团队选取真实性、有害性和公平性三个典型对齐维度来评估TAE的对齐效果：

在评估真实性的TruthfulQA数据集上，TAE在LLaMA-3-8B-Instruct上取得了87.8%的True*Info得分，比之前最好的编辑方法（SEA: 73.2%）提升了14.6个百分点，比原始基线（62.0%）提升了25.8个百分点。

TAE在去毒任务的RealToxicPrompt上同样表现卓越，将TP（毒性概率）从基线的0.41大幅降低到0.05，降幅近90%，并且优于所有专门的去毒基线方法（如DESTEIN: 0.13）；在公平性任务数据集StereoSet上，TAE将刻板印象分数（SS）从基线的64.8%显著降低到50.3%，极大地缓解了模型偏见，并且最接近理想的无偏见状态（50%）。

不仅如此，TAE在不同类型、大小的模型上均表现出显著增益，如Llama2-7B-Chat， Llama2-13B-Chat, Alpaca-7B和Mistral-7B等。

论文链接：https://openreview.net/pdf?id=43nuT3mODk

2025 年 9 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

TAE：从“句子”到“词”的精细化干预

实验结果：显著超越现有方法

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定