Rigorously Assessing Natural Language Explanations of Neurons
J Huang, A Geiger, K D’Oosterlinck, Z Wu, C Potts
[Stanford University]
神经元自然语言解释的严格评估
要点:
- 提出一个框架,用于评估声称单个神经元表示文本输入中的概念的自然语言解释。
- 提出两种评估模式:
- 观察模式:评估一个神经元是否在所有且仅在解释中的概念所指代的输入字符串上激活,计算错误率以评估解释质量。
- 干预模式:评估该神经元是否是解释中的概念的因果中介,进行交换干预实验以测试交换神经元值是否改变与概念相关的模型行为。
- 将该框架应用于审核Bills等(2023)用GPT-4生成的GPT-2 XL神经元解释。
- 在观察模式下,即使是最可信的解释,错误率也很高(精确率0.64,召回率0.50),GPT-4的高置信度分数不能保证解释的准确性。
- 在干预模式下,没有发现证据表明神经元是解释中的概念的因果中介,神经元的表现与随机基线相似。
- 文章讨论了由于语义模糊,使用自然语言解释的局限性,单个神经元也可能不是最可解释的分析单元。
动机:评估自然语言解释的神经元的准确性是具有挑战性的,因此需要开发一种评估自然语言解释的方法。
方法:提出两种评估自然语言解释的模式:观察模式和干预模式。在观察模式下,评估神经元是否在符合解释的输入字符串上激活;在干预模式下,评估神经元是否对解释中的概念起因果作用。通过构建任务和干预神经元的值来评估解释的质量和神经元的因果中介作用。
优势:该方法可以帮助评估自然语言解释的准确性,并提供对大型语言模型中神经元表示概念的见解。
提出一种评估自然语言解释准确性的方法,并使用该方法评估GPT-4生成的解释,结果表明即使是最自信的解释也存在高错误率和几乎没有因果效力,进一步讨论了自然语言解释和神经元分析的问题。
https://arxiv.org/abs/2309.10312
正文完
可以使用微信扫码关注公众号(ID:xzluomor)