AI黑盒解密：如何严谨地解释神经网络内在逻辑?如何量化神经网络表征?|《追AI的人》第30期直播回放

直播回顾

《追AI的人》系列直播第30期邀请了上海交通大学张拳石教授分享《较真地追问，神经网络是否可以被严谨地彻底地解释清楚？》。
以下为直播的文字回放，共计18695字。
📺《追AI的人》往期直播视频回放观看👉B站关注：AAIG课代表
直播简介回顾：为什么大模型≠大知识?神经网络是否可以被严谨地彻底地解释清楚?《追AI的人》第30期来咯！

张拳石

上海交通大学电院计算机科学与工程系长聘教轨副教授，博士生导师，获ACM China新星奖。其研究工作主要发表在计算机视觉、人工智能、机器学习等不同领域的顶级期刊和会议上（包括IEEE T-PAMI、ICML、ICLR、CVPR、ICCV、AAAI、KDD、ICRA等）。

分享大纲‍‍

🎈 为什么要有统一体系？🎈 怎样定义博弈交互？🎈 证明神经网络符号化？🎈 怎样解释表征瓶颈？🎈 怎样解释视觉概念？🎈 怎么完善沙普利值？🎈 怎样统一不同归因算法？🎈 怎样解释BNN表征？🎈 如何解释鲁棒性和泛化？🎈 怎样解释对抗迁移性？🎈 哈萨尼交互网络

自人工智能诞生之初，解释性一直是一个问题。在使用最初级的人工智能技术时，我们需要思考如何解释和理解这些算法。然而，在深度学习出现之前，我们使用了一些简单的模型，例如线性回归模型，这些模型基础相对透明且简单，因此对解释性的关注度并不高。但是随着人工智能的发展，尤其是在大型模型或深度学习阶段，神经网络的解释性变得越来越重要。

自2012年起，以AlexNet为起点，对于解释性的目标，在最初的三年（2012年至2015年）其实还相当模糊。因为当时很多人对神经网络系统并不完全接受，尽管其性能已有所提升，但很多人仍然认为神经网络是一个黑盒，其内部表现非常混乱。
因此，从2012年到2015年，解释性的目标主要集中在可视化方面。也就是通过可视化的方式，例如绘制卷积神经网络所建模的经典形象，或者通过找到能最大程度触发某个类别的像素区域，并将其可视化出来，以观察神经网络对于不同特征的建模趋势。通过这样的研究，我们得出了一个相对泛泛的结论，即神经网络并非完全无序，而是由一些特定集合的组合构成，具有一定的意义。这在2012年至2015年期间成为解释性研究的重点。

自从2016年以来，解释性问题一直是人工智能领域的重要问题之一。在这个过程中，我们一直在尝试从不同的角度去理解神经网络，例如建立人类可以理解的模型，或者从认知的角度去解读神经网络建立了什么样的知识。然而，这些只是初步的目标，最高的目标是要问深度学习作为一个黑盒系统，是否有第二套客观科学的方法去理解它的表征。由于深度学习模型是端对端的，我们只能从输入数据到输出数据进行断点断裂地训练，中间的逻辑我们并不完全了解。因此，我们需要找到一种方法来理解神经网络经历了什么，以及它所看到的趋势是否正确。这将有助于我们更好地控制和理解人工智能系统，从而推动该领域的发展。

这个问题并不仅仅是一个简单的问题，还需要进一步探究。它给解释性领域提出了一个新命题，即如何严格地解释清楚神经网络内部的逻辑，是否存在一种超越端对端的方法，从客观的角度认知神经网络内在的逻辑。如果没有这样的角度，如果我们的解释只是一些似是而非、近似的可视化解释，而不是严格的定量解释，那么我们将永远无法确切地解决这个问题。

因此，在未来的应用中，随着深度学习的发展，尤其是大型模型在关键领域（如金融、自动驾驶、军事和医疗诊断）的应用越来越重要，我们需要讨论解释性的问题，并对解释性提出更高的要求。希望能够找到一种可量化、可证明、可验证且能够承担责任的方式来解释神经网络的运行逻辑，从而确切地解决其内部逻辑的问题。当神经网络系统发生故障时，是否能够追溯责任并提供反馈指导以改进网络？目前来看，这个问题非常困难，并且相关研究还很少。

但在大多数情况下，目前的绝大部分网络神经算法无法提升神经网络的性能。当然，在一些非常简单的数据集或特殊的例子中，可能会有一些成果。但是对于一般性的、具有挑战性的问题，目前无法真正量化神经网络的可解释性和性能，这也是我们目前面临的困难。

本次直播将回答以下几个问题：如何量化神经网络的表征？我们是否能够解释神经网络？通过一个国际交互的体系，我们将解答这些问题。其中，首先需要考虑的问题是神经网络是否能够符合人类的认知方式进行解释，因为解释的核心问题在于解释是否符合人类的认知。如果解释出的只是二进制代码，那只是电脑自身的认知，而不是与人的认知对接。因此，解释要与人的认知相符。我们需要使用符号化、概念化等方式进行认知，而这些方式是人类常用的认知方式。

在某个方向上，我们可以通过神经网络触发某个卷积核上最强的千分之五的信号。然而，需要注意的是，这个千分之五并不代表最强的信号，而是最早的信号并不太强，刺激神经网络的信号可能导致内部混乱。因此，我们无法严格地说一个神经网络代表了什么语义。

其次，关于工作中的第二个问题，我们在多层神经网络中假设中层神经网络具有高维向量，其中一个主方向用于分类猫，另一个主方向用于分类牛，再一个主方向用于分类马等等。我们可以通过训练一个支持向量机（SVM）分类器来实现这个假设。然而，我们需要对之前提出的观点进行进一步探讨。
当我对神经网络进行概念化解释时，是否正确呢？神经网络是否严格遵循一个主方向来解释一个概念？这个问题仍存在一些不确定性，目前没有任何证据表明神经网络必须用一个主方向来表示一个类别，一个类别也不一定只对应一个主方向。因此，这个问题的答案并不明确。

当我们解释一个神经网络时，最大的挑战在于我们的解释是否可靠。我们的解释是否准确地反映了神经网络的逻辑，是否满足用户的期望？因此，我们需要找到一种解释方式，使其能够根据用户的需求来解决问题，从而将其转化为一个可应用的解释工具。然而，让我们回到一个最基本的问题，即如何客观地量化神经网络的表征。神经网络的表征解释是否可靠？我们是否有一个公理化的系统来确保这一点？或者再回到另一个根本问题，神经网络究竟能否被严谨地解释？如果我们无法对此进行证明，那么神经网络的前景就不容乐观。
举个例子，假设我们对神经网络进行分析，发现其中80%的信号可以用军事概念来解释，而剩下的20%信号则类似于电波或其他无法用概念解释的杂乱信号。这会导致尴尬的情况，例如在自动驾驶领域，我们可能发现80%可解释的信号是可靠的，但剩下的20%信号却无法解释。
在这种情况下，我们的解释是否仍然有用呢？如果我们只能解释一个神经网络80%的信号，那么它的应用可靠性将会受到严重的影响。然而，要量化出神经网络中有多少比例的信息无法被解释仍然是一个难题。
同时，解释神经网络的可解释部分是否能够严格、准确地进行解释也是一个关键问题。这需要我们能够提出理论上的方法，证明神经网络能够用符号化逻辑简洁地解释绝大部分信号。我们还需要在算法层面对神经网络进行拓展，并且首要关注神经网络的泛化性和鲁棒性。
目前针对浅层模型，我们可以使用一些算法来推导模型的泛化边界，但是对于大型、尤其是复杂的大型模型，传统的分析方法无法适用于解释这些模型。我们不能仅仅假设神经网络的特征仅仅是基于网络结构和连接方式，尽管这些也包含了一些统计上的信息，如寻求平滑的loss landscape等。然而，这并不是对神经网络行为进行根本性解释的方法。
实际上，根本性的解释应该建立在神经网络所表达的趋势上，也就是如何在趋势表征层面重新定义其方法。我们需要找到更强大或更基础的根本原因来解释神经网络的行为。此外，我们还需要统一之前存在的一些经验性算法。在深度学习领域，人们往往根据个人经验和对问题的整体理解来定义方法。
现在的问题是，我们能否从解释性的方法和理论体系中找到这些算法背后的根本机理，以及它们在某个领域方向上的共同激励。那么，大型模型是否等同于大量的知识？如果我们的大型模型模拟了大量的知识，那么对于它的解释可能会是无穷无尽的。这或许是一个非常重要的问题。

这是一个国际交互的体系，但实际上与博弈无关，也不仅仅是为了交互而存在。我们希望能够建立一个根本性的体系，我们的核心观点是能否量化或定义出神经网络所建模的趋势或概念。

如果我们无法严格证明神经网络的表征是符号化的，那么我们对其的解释将会有所不同。我们将从一个不同的角度来思考问题，即不再通过特征进行解释，而是直接尝试对黑盒模型进行计数，以探索所建立的概念数量。我们会发现，即使两个神经网络或两个大型模型的结构可能不同，训练数据可能也不同，但它们在建模知识方面却具有相似的量级，可以说是走不同的道路，却达到了相同的目标。就像我们的大脑和神经连接方式一样，可能存在着数十亿或数千亿的神经元，它们的学习方式可能各不相同，但我们对一般事物的认知方式却是相似的。

尽管每个人大脑中神经元的连接方式是实时自适应的，但我们的知识具有共通之处。当面对如此复杂的神经网络时，如果我们能够计算出不同神经网络所建模的需求量，并确定它们的表征是否都是为了量化神经网络的表达能力，那么我们该如何处理呢？在数十亿个参数和训练数据中，我们面临着许多复杂问题，涉及模型的复杂结构、维度、乘数等方面。然而，如果我们能够超越这些具体问题，从更根本的角度出发，我们就能够发现不同的解决方案。通过计算神经网络所涉及的概念数量，我们还可以重新定义许多关键问题，例如神经网络的可扩展性、鲁棒性和迁移性等。

那么什么是泛化性呢？举个例子，假设我们要进行人脸识别，第一个神经网络可能会建模两个眼睛和鼻子之间的相互作用，以及单个区域内的相互作用。那么其他神经网络是否也会学到类似的相互作用方式？在不同的人脸样本上，是否也存在类似的表达方式？如果我们能够在这个过程中发现一个概念，并且该概念在不同情况下都出现，那么它就具有泛化性。我们还可以通过检查不同样本和模型之间是否存在相同概念的缺失来重新定义问题。通过这样的角度，我们可以重新定义许多根本性的问题。

接下来，第三个问题是我们要证明神经网络的表征瓶颈。也就是说，我们要探索神经网络如何跳出其结构和层数的限制，以解决复杂的问题。我们需要了解其中存在的一些瓶颈和难以建模的问题，以及哪些概念容易建模。进而，决定交流的概念层面对问题的影响是非常重要的。

目前，所有的方法都是端对端的，通过从数据中进行训练来训练一个庞大的模型，可能需要数十亿的数据。然而，人与人之间的学习是一种交流式的学习。就像我给大家做报告时，并不是拿着数千万或数亿个数据与大家进行互动，而是直接使用语言和符号进行交流。
那么我们是否能够量化神经网络所建模的一些符号化概念的综合能力呢？是否能够通过交流式的学习与神经网络进行对话式的学习交流呢？当然，这个问题需要更严格的公理系统和理论系统进行定义，这是我们未来的研究方向。我认为解决根本性的问题需要在数学上进行深入探索。

我们提出了一个博弈交互的理论体系。统一体系的目标是什么呢？我们从第三层开始，即从博弈论的角度定义了交互，并给出了多阶交互和多变交互的定义。我们证明了许多交互在博弈论层面上的性质，并克服了Shapley value在应用中遮挡基准值的问题。同时，我们对神经网络的泛化性进行了解释，解释了它的语义结构，并探讨了神经网络的表征、美观度、鲁棒性、迁移性等问题。

然而，我们的根本目标不仅在于解释和定义交互，而是通过交互来量化神经网络所建模的知识量。通过知识量的角度，我们可以对神经网络的鲁棒性和泛化性进行定义和量化。

首先，我们需要解决的问题是什么是交互？对于线性模型而言，每个数字都独立地发挥作用。然而，神经网络是非线性模型，对于任何一个非线性模型来说，它不是单独处理一个单词或一个像素的信息，而是通过多个单词形成一个群组，通过多个像素形成一个特定的区域形状来进行判断。

因此，正面的交互是指当1+1>2时，代表着ABC可能是三个单词。当这三个单词同时出现时，它们的效用与单个单词出现的效用的和它们之间的差距为0。如果三个单词同时出现的效用与三个单词分别出现的效用相同，那么我们认为这三个单词之间没有交互。

但如果它们的差不同，我们就认为它们存在交互作用。举个例子，Greenhand合在一起就是“新手”的意思，而当分开就是“绿色的手”，即有交互作用。因为当Greenhand被神经网络理解为绿色的手时，神经网络会选择线性模型。但是当这两个东西放在一起由神经网络处理时，它会被认为“新手”。

哈萨尼交互，严格来说是在1963年提出的，也就是半个世纪以前。它代表了不同数区单元之间的交互。

举个例子，左边是一个神经网络，S是输入图像。我将其划分为10×10，即将图像划分为100个区域。这些不同区域之间存在交互，比如RS1，它是一个数值，可能等于0.2。它代表了什么呢？如果这10个区域没有被同区遮挡，即没有任何一个区域被遮挡，那么它对鸟的分类会产生一个0.2的置信度得分。

但是只要有任何一个区域被遮挡，这种逻辑“与关系”就被消掉了，这意味着0.2的得分将会丧失。基于交互的定义，我们可以将神经网络的输出写成一个偏置项加上不同交互效应的形式。每个“与关系”代表一个数据效应，例如0.2、0.1、-0.05等等。当它们加在一起后，正好对应于神经网络的输出。基于定义，它恰好满足这个性质，即神经网络的输出恰好等于神经网络的偏置项加上所有可能交互形式的数学效应的合理性。

不仅如此，神经网络还满足另一个性质。无论对于图像的100个区域进行任意的遮挡，即使某些区域被遮挡，而其他区域则没有，因为每个区域可以有两种状态，即遮挡或不遮挡。总的遮挡方案有2的100次方个。无论我们如何进行遮挡，我们可以得到一个数量级为天文数字的遮挡样本。而在这些遮挡样本上，神经网络的输出与右边逻辑化图模型的输出完全相同。

我们可以将左边看作是神经网络的输出，右边是逻辑模型的输出。需要注意的是，在这个图像上它们的输出不仅保持一致，而且在对图像进行任意的遮挡时，有2的100次方种遮挡方案下，左右两个模型始终一致。
现在让我们先来看看每个交互的物理意义。假设我不知道这是一个多项式，这个多项式本身就是一个黑盒，我对这个黑盒模型进行了测量，并提出了一个生物指标来衡量神经网络的性能。在测量结果中，恰好有几个交互项：S1、S2之间存在交互，其数值恰好是S1S2的两倍；S2和S3之间存在交互，其数值恰好是S2S3的负三倍；而S1、S2、S3之间存在交互，其数值恰好是S1S2的五倍。

然而，如果我们对神经网络的输入图像进行遮挡，例如遮挡了右上角的部分，那么交互项将会被遮挡，直接变为0。即使交互并没有完全被遮挡，但部分遮挡也会破坏这种关系，导致数据变为0。换句话说，无论如何遮挡图像后，神经网络的输出将与交互图模型的输出相等，它们在数值上完全一致。

因此，右侧模型可被视为左侧模型的一种解释，因为无论是在原始样本上还是在任意天文数字级别的遮挡下，左右两边仍然是相同的。即将右侧模型看作是对左侧模型的一个黑盒模型的解释。然而，这是否是一个可靠的解释呢？但这还远远不够，因为右侧模型涉及的项数非常庞大。对于任意的区域之间都存在组合关系，对于这100个区域来说，右侧模型中的组合数字也是一个天文数字级别的数量。换句话说，右侧模型中包含了2的100次方数量级的交互，这不仅仅是解释，而是一个比神经网络本身更为复杂的系统。

因此，为了确保我们的解释是可靠的，我们首先需要证明它的稀疏性。在接下来的章节中，我们将通过证明神经网络的符号化表达来证明稀疏性。稀疏性的含义是，正如我们刚刚所观察到的，这些网络可以被表示为不同的交互核的形式，但我们想要证明的是大部分交互都趋近于0或非常接近于0。例如，它们可能在10的负8次方或负7次方级别的极小差异，几乎可以被忽略不计。

举个例子，这是两个基于表格数据绘制的图形，展示了两个图像数据的绘图结果。我们进行了类似的实验，无论是在数据点上还是在大型模型上，结果都是相同的。请观察横坐标，假设我们选择了图像或表格数据中的10个单元格，这样的组合形式总共有2的10次方，即1024种可能的组合形式。然而，在每种交互情况下，我们发现交互值都等于0。接下来，纵坐标表示RS的绝对值，其中既有正数也有负数，但我们将其展示为绝对值皆为正数的形式。

经过归因化后，我们发现真正的非零的值是极少数的。在我们的经验中，一般的小模型中每个给定数单元的非零交互约为50个左右，而对于复杂一点的任务，大约为100个左右。而在大模型中，一般不超过300个。

样本间迁移性指的是在不同样本之间共享的交互特征。举个例子来说明，我们将一个交互定义为一个关系，比如在人脸识别中，包括两只眼睛、一个鼻子和一个嘴巴，共四个图像区域。如果这个交互只在某一个特定的图像上出现，那么它就是一个特定的特征，只适用于该特定图像。
然而，如果在其他人脸图像中也能找到两只眼睛和鼻子之间的关系，那么它就是一个具有公共可迁移性的概念。换句话说，它不仅适用于一个特定的概念或交互，而是更倾向于没有限制的应用。

通过在同一类别的不同样本上进行实验，例如在一组戴眼镜的人脸数据集上，我们可以观察到某个交互，比如两只眼睛和一个鼻子之间的关系，在不同样本中具有高频率的出现。换句话说，这100个交互基本涵盖了80%以上样本中的交互功能。因此，在进行人脸识别时，我们甚至不需要找到全部100个交互，只需找到50个交互就可以覆盖80%以上的交互情况。尽管每个样本可能存在多种不同的情况，因为每个样本的输入不同，可能会触发不同的交互。
然而，通常情况下，交互数量相对较少，大约在50到100个左右，或者在某些复杂情况下可能达到200到300个甚至500个交互。并且，并不会存在更多的可能性，每个样本都有其独特的一些特殊交互，只是在某些特殊情况下会出现一些异常的交互。然而，最基本的交互数量较少，可能只有一两百个，或者可能只有几十个。那么这意味着什么呢？这意味着交互是可以被迁移的，可能是共享的。在我们展示的一些常见交互中，这些交互在不同样本中都反复出现。

另外，在新建的片区中，如果我们在相同的数据训练结构下使用不同的神经网络，它所观察到的交互是不同的。这实际上是一个我们无法绕过的问题，或者说是一个大家想要绕过但没有想到如何绕过的问题。我们一直在努力解释神经网络，例如解释一个具有10层的神经网络中每一层的变化，以及不同层之间的平滑度的变化等等，但这样的解释往往非常困难，因为神经网络的复杂性是无限的。
然而，我们是否真的需要从结构上解释神经网络呢？我们会发现，结构似乎只是知识的一种有限表征方式。神经网络的性能可能因网络层数的不同而有所差异，或者两个网络的Transformer结构不同，但从更长远的角度来看，即使差距达到两个或三个百分点，也并非大问题。从根本上来说，神经网络的性能不会有质的变化，好像知识表征与结构本身并没有特别明确的一一对应关系。

我们发现不同的神经网络所建立的交互具有相似之处，就像你和我大脑的情况一样。虽然在你和我大脑中，生物神经元的联系方式可能不同，我们的经历和遭遇也不同，但对于某些基本的认知，比如对知识概念的认知，是相同的。这些是共通的认知，所以在神经网络所建立的交互中，大约80%的内容可能是相似的。那么第四个性质是什么呢？它涉及神经网络的分类问题。
既然神经网络的输出可以表示为100个或200个交互的总和，那么这200个交互本身是否有差异呢？因为在传统上，我们关注的是网络最终输出的分类结果。现在假设我们将每个单元、每个交互都单独考虑，我们会发现神经网络在进行分类时，无论它们的分类性能有多高，它们的性能都相当不错，保持在80%到100%之间，具有相当好的分类结果。

让我们回顾一下之前的四个观点，其中后面三个观点是基于严格的实验。第一个观点是有理论证明支持的，我们证明了稀疏连接网络中的交互触发是非常稀疏的。在这种情况下，即使样本被任意遮挡，神经网络的输出结果仍然保持一致。此外，我们实际上发现不同样本之间所获得的交互是相似的，存在着迁移性。不同模型之间的样本所引发的交互具有相似之处，并且这些交互又具有很强的分类性能。

这引出了一个问题：神经网络是否能够被严谨地解释呢？然而，如果这四个观点都成立，那么我们的交互表达可能正好体现了对神经网络的一种根本解释。此外，还有一个问题需要回答，即大模型或神经网络是否代表了大量的知识。大模型通常具有大量的参数和大量的训练数据。
那么神经网络所建模的是大量的知识吗？如果神经网络所建模的知识点数量达到了数以亿计、数十亿计甚至几百亿、几千亿个，那么我们将无法进行解释。因为人类的词汇量是有限的，我们的大脑也不可能拥有几千亿个知识点。我们似乎发现，神经网络仍然是一个中等规模的学习系统，甚至从它具有数以亿计的参数的角度来看，它仍可被视为相对较小的知识系统。

如果我们一直采用端对端的学习方式，那么会有一些关于安全性和可靠性的问题。如果我们无法在语音层面进行真实可靠的对接，那么实现这一点就会变得困难。因此，我认为小知识的发现非常重要，因为它代表了相对较小规模的知识，这样我们才有可能进一步与这些网络进行交流、进一步控制和掌握它们，并进一步检查它们的可靠性。
如果神经网络过于复杂且特征点过多，我们将无法有效地进行控制。此外，不同模型之间的神经网络是相似的，如果每个模型所建模的表征完全不同，我们将很难进行有效的交流。让我们思考未来发展中的一个问题，不仅仅是现在几个大型模型达到了什么水平，以及它们突然实现了怎样的性能提升，而是从根本的角度思考它们的潜力所在。这四个性质恰好证明了我们可能的交互是稀疏且通用的，并且具有迁移性。此外，稀疏样本和交互的相互作用能够解释神经网络的各种变化。

什么是对它的证明呢？证明的方法如下：根据哈萨尼交互定义，我们可以证明大部分交互项为0，只有少部分项非0。接下来有三个假设，第一个假设是什么呢？第一个假设是交互赋能建模极其复杂的交互。
那么什么是极其复杂的交互呢？例如在图像中，我们将图像划分为100个区域，在每个区域中，比如ABC三个区域之间存在交互关系。例如，眼睛、鼻子、嘴巴这三个区域之间存在交互。然而，ABC三个区域只是三个区域，交互的数量代表了区域的复杂程度，我们也将其称为三阶交互。但是，这个阶数是否能够无限制地增加呢？事实上，只要有一个区域消失，整个交互都会消失。每个区域都非常敏感，就像背诵古诗一样，如果有一个字写错了，老师就会让你写十遍、五十遍，这是一种非常复杂的交互过程。

在日常生活中，我们的对话可能充满了语法错误，但这并不影响我们交流的表达，因为我们的交互是简单的。不可能有20个单词组成一个词组，也不可能有三十几个区域、五十几个区域组成一个形状，这样的情况是不常见的，是非常复杂的。所以这就是我们的第一个假设，假设神经网络不会对这样复杂的交互进行建模，也没有必要去建模。

第二个假设是什么呢？例如在图像上进行一些遮挡，假设有100个区域，我们遮挡了其中的10个区域。当我们以不同的方法和组合方式进行遮挡时，会有多少种可能的组合方式呢？这涉及到一个组合问题，根据组合数的原理，从100个区域中选取10个的组合数为C(100, 10)。在这种情况下，我们通过不同的组合方式来寻找其分类自信度，当遮挡的数量增加时，其平均对应度也会下降。这并非针对特定的组合方式，而是对于区域的平均限制组合数而言，不同的遮挡方式会导致平均自信度的降低。
自然语言也是如此，假设一个句子有30个单词，当其中的5个或10个单词被遮挡时，相比于仅遮挡5个单词的情况，遮挡了35个单词后，对于理解这件事情的能力会下降。这也符合常理，这也是一个假设。

第三个假设是，随着遮挡比例的增加，分类适应性会下降，但是这个下降速度不能超过多项式级。换句话说，如果仅遮挡了5个区域，我就不能立即无法分辨出来。举个例子，如果一只老虎向我扑来，只有老虎的尾巴或其他部分被遮挡，我就无法看到整只老虎。因此，我们可以得出三个假设：首先，不能对极其复杂的交互进行建模；其次，随着遮挡的增加，平均信心会下降；第三，下降的速度不能太快。

通过这三个假设，我们可以得出以下结论。我认为有效的交互是指交互的数量大于一个较小的预设值。当交互量达到一定程度时，交互的非零项数量或者交互的数量会呈现绝对巨大的范围。我们可以用n的幂次来表示，一般情况下是p加n的幂。根据经验，这个值通常在1.5平方到2.5平方之间。
这里的n代表样本数量，在句子中，n代表单词的数量，例如有30个单词，n就等于30。而在图片中，n代表区域的数量，n就等于100。那么，总共可能的交互数量是多少呢？它是2的n次方，表示潜在的交互组合是指数级增长的。然而，在实际情况中，超过阈值的交互数量是多项式级别的，即n的2.5次方，而不是2.5的n次方。这意味着实际的交互是非常稀疏的，远远达不到阈值。一般情况下，在一个简单的模型中，其规模可能在100个左右，而大型模型可能仅约为300个左右，因此交互并不是非常频繁。

🤔️那么，如何定义交互呢？例如在语法正确性的例子中，我们可能使用一个较小的面向NLP应用的多层神经网络。这样的网络可能有上百万个参数，但我们可以观察到以下情况：在不到30个节点的情况下，可以削减约98.1%的信号。因为我们已经知道，如果2的n次方，将所有节点包括在内，它可以捕捉到100%的信号。但我们可以严格量化，我们到底能解释多少？我们可以解释为不到30个概念，概念的数量达到了98.1%。

另一个例子是在表格数据中，该例子的概念数量为97.8%，同样也是在不到30个节点的情况下的交互。虽然神经网络是很复杂的，交互的数量仍然太多了，但是从人类的角度来看其实交互是非常基础的。大部分的交互可以涵盖绝大部分的信号。

下一个焦点是神经网络表征瓶颈，所谓神经网络表征瓶颈指的是哪些交互容易进行建模，哪些交互不容易进行建模。它涉及到多阶交互和信息的交互，但其中存在着复杂性。我们得出了一个反直觉的结论，即神经网络容易对极其简单和极其复杂的交互进行建模，但对于中等复杂度的交互却不太容易建模。
这与人类的直觉不同，因为人类在面对只有一两个区域时，我们还无法判断这代表了什么。然而，当给定很多个区域时，我们会发现信息是富余的，人类在直觉上感觉中等复杂交互容易识别，但我们需要用量化的方法来验证这个观点。

橙色线代表真实情况的结果测量，蓝色线代表理论推导的结果，横坐标代表交互的复杂度。左边是0.1，表示有10%的图像参与了交互，0.9n和0.95n表示有90%以上的区域或单词参与了这个交互。
你会发现简单交互的强度很高，复杂交互也有一定强度，但是中等复杂的交互基本趋近于零。这是一个很反直觉的现象，但我们通过理论证明和实际观察得出了相似的结果。

在下一个阶段，我们将从数学角度给出一些定义，大部分交互解释都是基于数学的，唯一没有被解释的是认知层面的内容。我们无法准确定义认知的概念，我们只是希望了解当神经网络对图像进行分类时，我所观察到的交互或神经网络提出的交互是否符合人类的认知交互。然而，关键在于人们认为这种交互无法被建模，但我们可以采取一种方法，因为我们之前发现少量交互对于研究交互非常重要，而大量交互趋于零。

我们将小于0.1的交互压缩到接近于零的程度，让12、10或100等大的交互增强。如何增强强交互，如何降低弱交互呢？我们采取的方法是不改变边缘，在不破坏边缘的前提下，局部地尝试改变色度、亮度和饱和度。

这是我将图像输入神经网络中，并使用何凯明在2016年提出的残差网络中提取交互的方法。我使用了ImageNet进行训练，并采用了一种近似的方法来增强强交互并降低弱交互。当我改变图像时，它会自动调整成红砖绿瓦，红砖的墙变红了，蓝天变蓝了，晚霞的光变红了，变黄了。
在修改这个网络时，我并没有使用任何生成图像的网络，也没有使用GAN模型或Diffusion模型，也没有使用任何生成的数据进行训练。我只是提供了一张图像，并让模型根据ImageNet进行训练。尽管ImageNet包含了1000个类别的分类，100万张图像，但它并没有标注这种细节，比如砖应该是红色的，天应该是蓝色的，云应该是白色的，晚霞的云应该是黄色或红色的。它只是自动进行分类训练，并没有标注这么精细的颜色。然而，当我提取了强交互后，发现它使物体呈现出了它应该有的颜色。

如上图，如果是一张雾蒙蒙的图片，你会发现石头变成了红色，可能就变成了铁矿石；树叶变得更亮，树叶的叶脉变得更清晰。水原本是白色的，现在变成了类似九寨沟那种浅绿色的水，我们的世界一下子变得丰富多彩，就像哈利波特的魔法世界一样。

这张图片中，整个画面都是花朵，还有一个蜜蜂。然而，神经网络对此理解出现了错误，它将花朵错误地改成了叶子，并使其呈现绿色，而蜜蜂部分没有改变。然而，这个错误实际上代表了神经网络所建模的一些普遍认知的误差。即使在现实生活中，神经网络也会存在错误，这恰好反映了我们在提升强交互和降低弱交互方面所做的努力。
尽管我们的神经网络是基于ImageNet进行训练的，我们得到的结果在一定程度上符合人类的期望，但我们从未声称我们的交互完全符合人类的期望，存在一定的偏差是不可避免的。然而，在这个例子中，我们发现我们不能完全说我们的交互毫无意义。当我们进行交互建模时，我们只能说这些区域的交互建模是有效的，但我们不确定这些区域之间的交互涉及颜色还是形状等特征。然而，我们发现这种交互可能与人类的认知有相似之处。

第二个问题涉及解释沙普利值。沙普利值是指在解释性领域中，许多方法都是基于人的直觉的工程性方法。然而，我认为在可靠性和实用性方面，除了我们自己的体系之外，沙普利值是相对较为可靠和扎实的方法。这个概念是由沙普利于1957年提出的。

实际上，沙普利值具有一个严谨的公理系统。尽管我将图像简化为16个区域，但实际上像素可以有成千上万个。简而言之，我们的目标是对每个图像中的鸟类进行分类，并确定它们的重要性，即沙普利值的意义。在给定一个经过训练的模型的情况下，我们可以在任何遮挡样本上得出一个结果，然后我们可以测量其重要性。但是沙普利值为什么被认为是相对可靠的标准呢？因为它满足了四个公理。
第一个是互斥性，也就是说神经网络输出的总变化恰好等于每个区域的重要性之和。第二个是可加性，即两个神经网络的总输出等于每个神经网络所解释的重要性之和。此外，还包括对称性、可加性和求和协议等特性。据说在博弈论中，沙普利值是唯一的指标。

简而言之，沙普利值可以理解为神经网络在第二个区域没有被遮挡时的输出与被遮挡时的输出之间的重要性差异。对于其他15个区域，我们可以进行任意的遮挡，然后通过一个特殊设计的加权平均采样来计算这些区域在遮挡和不遮挡时输出差异的加权平均值，这就代表了第二个区域的重要性。

然而，在这个过程中我们会遇到一个更为基本的问题。沙普利值最初并不是用来解释神经网络或人工智能的，而是用来描述两队人踢足球的情况。一方有11名球员，另一方有5名球员，这样能否赢得比赛呢？再增加一个球员能否提高胜率呢？可能从8名球员增加到11名球员，球员的数量变化了，但在踢球的游戏中，你是否参与直接决定了结果。然而，在神经网络中，我们通过遮挡来表示哪些突出的像素参与了。当进行遮挡时，代表该区域不参与，不进行遮挡则代表该区域参与。

然而，在这个过程中我们又会遇到一个问题，那就是如何进行遮挡？什么是完美的遮挡状态？从理论上讲，这根本无法被准确定义。在各种各样的方法中，存在许多可供选择的遮挡方法。例如，可以使用纯黑色的小方块来遮挡一个区域。另外，均值法是指对于一百万个样本，可以找到一个平均图像来进行遮挡。还有一些人使用灰色遮挡或添加钢丝噪声的方法，通过去除高频成分，保留图像的低频成分。

总的来说，这些方法都无法完全满足两个条件。那么，什么样的遮挡算法才能被称为完美呢？首先，我们无法完全消除旧信息的影响。例如，如果使用黑色遮挡，但背景恰好是黑板，那该怎么办呢？或者使用灰色遮挡，经过模糊处理后，仍无法确保完全消除高频信息，也无法保证完全去除低频信息的影响。

第二个问题是，我们无法保证完全不引入新的信息。无论采用何种遮挡方法，我们都会发现新的边缘、点状特征和边缘特征。新的信息被引入，同时旧的信息也无法完全去除。那么，什么样的遮挡状态才能被称为完美呢？从直觉上来看，我们无法达到完美的遮挡状态，因为我们目前所了解的只是人的直觉，而不是神经网络的视角。

然而，如果我们将神经网络解释为一种博弈交互的方式，情况就不同了。通过交互，神经网络可以告诉我们触发了多少个交互，例如500个或300个。如果我们引入一个遮挡值，是否可以尽可能地去除旧的交互，而不引发新的交互呢？
实际上，我们将话筒交给了神经网络，它就像是在向我们描述它看到了哪些内容，以及它没有看到哪些内容。这样，我们可以重新学习一种自由的交互方式，即尽可能地触发最少的交互，而不引入新的交互。

通过这样的方法，我们可以利用minis来实现最优状态。其根本逻辑是改变了视角。我认为应用本身的实际效果固然重要，但更加重要的是改变我们的思维方式。实际上，我们通过让神经网络自己描述它看到了什么、没有看到什么，才能够学习到最优的交互状态。这种思路的改变对于实现最佳结果至关重要。

刚才我们讨论了沙普利值如何完善的问题。在神经网络解析领域中，一个更重要的问题是归因算法。

对于给定的图像，我需要确定每个像素是与分类相关还是与分类无关的；或者对于给定的自然语言，我需要确定哪些单词与预测相关，哪些单词与预测无关，并且它们是起到积极作用还是消极作用。
然而，存在一个问题，就是不同于具体任务，我们无法从上帝的视角来判断什么是对的、什么是错的，因为我们无法洞悉神经网络的思维。只有神经网络自身的表达才能被视为真实的解释。由于我们人类总是事后才能审视，因此许多方法存在两个问题。首先，很多方法倾向于按照人类的视觉感受去解释，这可能与神经网络的客观解释并不一致，即使人们觉得某种解释看起来漂亮或可爱。

另外，很多方法是基于直觉进行解释的。例如，有些人认为图书中的所有记录本身就代表了其重要性。还有人通过遮挡来进行解释，即在某个区域进行遮挡，如果遮挡后神经网络发生变化，则表示该区域重要；如果没有变化，则表示不重要；正向变化表示负向作用，负向变化表示正向作用。

在解决中小型问题时，有许多方法可以发挥各自的能力。然而，这些方法唯一的问题是，虽然它们在某种意义上都是合理的，但我们不能确定它们一定是正确的。它们可能自圆其说，但又相互冲突，并且其结果可能存在差异，因此我们无法在未来的发展中衡量它们的准确性。

目前有很多解释方法在解释神经网络输出方面存在问题。例如，通过遮挡一些被认为重要的像素来观察其下降的速度是否快，这些方法在交互理论上存在问题。比如，在“与交互”“或交互”中，在这三个方面进行工程性的测量，即使是进行科学测量也存在许多情况，现有的普遍测量方法本身都存在理论上的缺陷，那么问题出在哪里呢？

我们的目标并不是开发一种新的方法，而是看是否能将这些工程方法统一到同一个体系中。因为我们无法比较哪种方法是正确的，所以我们首先需要将它们建模在同一个数学系统上。因为这些方法有的是扰动的，有的是遮挡神经网络的输入来观察神经网络输出的变化。

我们关注了14种方法，本质上都是14种经验性的归因算法。这些归因算法有个公共的本质，表现为一个理论框架，这个理论框架是什么？它可以解释神经网络的输出减去一个偏置项，等于每个输入单元独立作用与该输入单元与其他单元之间交互作用的和的形式。

我将其称为泰勒交互。另外两个角度高度相关，从某种意义上说是等价的，并且可以相互转换，一个是独立作用，另一个是交互作用，对神经网络的输出产生影响。

不同的算法对于AI的结果估计代表不同的观点。
它们估计第二个图像区域或第二个单词的重要性时，会以一种比例分配的方式考虑其独立作用和交互作用。例如，对于ABC中的眼睛、鼻子和嘴巴的交互，我会将一部分重要性分配给鼻子和眼睛。可能会存在一些错误的方法，甚至将交互分配给头发或耳朵。换句话说，所有方法的交互都可以以交互分配的形式表示。在这种情况下，我们可以将不同的算法统一到同一个框架下，这样我们就可以进行客观和相对可靠的比较。

进一步来说，我们将探讨如何解释贝叶斯神经网络的表征瓶颈以及在交互下贝叶斯神经网络的特征。

在普通神经网络中，参数通常是一个标量值，而在贝叶斯神经网络中，参数是一个分布。它具有自己的均值和方差，因此参数值是从该分布中进行采样的。当进行多次采样时，每次采样的参数值可能会有所变化。这就是贝叶斯神经网络的特点。当你进行100次或1000次采样后，你会得到多个输出结果，然后将这1000个输出结果求平均，这就是神经网络的最终输出。

我们已经证明了极高阶交互建模的困难性。那么，什么是极高阶交互呢？就像之前提到的例子一样，在一个句子中，涉及到25个单词之间的交互，或者在一个图像中，涉及到80个区域之间的交互。这种情况是具有问题的，因为它代表了一种无法泛化的噪声。

因此，在某种程度上，贝叶斯神经网络在某些方面具有一定的优势。从推导的角度来看，实际上它只与噪声的传输和复杂度相关。
如上图所示，实线代表普通神经网络，虚线代表贝叶斯神经网络。横坐标表示不同的复杂度，即表示交互非常简单的情况。而纵坐标则代表交互项目的强度，即每个交互的强度，可以是绝对值的和或绝对值的均值。右侧表示复杂交互。

神经网络的输出等于许多交互的总和，这些交互可以独立地发挥作用。在对抗问题中，当对输入样本添加对抗性噪声时，神经网络的输出会下降。实际上，每个交互的作用都会减弱。从交互的概念出发，我们可以将其作为一个统一的角度来解释神经网络对抗效能的本质。

举个例子，横坐标表示复杂度，即80%区域之间的交互或者10%区域之间的交互。蓝色柱子代表原始样本上的交互群，橙色柱子代表对抗样本上的交互群。在对抗样本和正常样本上，简单交互方面，蓝色样本和橙色样本之间的差别较小，但在复杂交互方面，差别较大。

从这一点可以解释对抗问题的根本原因。传统方法更多地通过推测来假设模型的复杂性，并在极端情况下推断其泛化性能，或者直接使用测试样本来测试对抗性和泛化性能。然而，这些方法没有从战略层面考虑，因为神经网络是由多个层组成的，建模复杂。我们不能仅仅从一两层简单的网络来观察它。真正的网络变化在于给定不同的输入时所触发的交互是不同的，有些触发复杂交互，有些触发简单交互。因此，泛化性能直接取决于交互的分布和交互的复杂程度。

对抗迁移性是指我们在一个神经网络上生成对抗样本，并将其错误地分类为其他类别，然后将这些对抗样本应用于另一个神经网络，观察它们是否能够成功对抗。如果我们能够使用对抗方法在神经网络A上对抗神经网络B，那么我们可以开始进行迁移。
因此，如果我能够对任意一个样本进行迁移，那么我可以利用黑盒对抗的方法，使用我的某个神经网络生成对抗样本，然后将其应用于另一个神经网络进行对抗。对于另一个神经网络而言，实际上是处于黑盒状态的，我们无法直接访问其内部结构和参数。

然而，在当前这个领域中，绝大部分的工作都是基于直觉而进行的。目前存在一些方法，认为通过在梯度上添加某种平滑操作可以改善结果，但这些方法在算法方面存在一定的限制性。另外，还有一些方法通过在模型图上引入噪声来取得更好的结果；通过增加反向传播链接的权重来改进网络的传播过程。除此之外，还有各种其他不同的方法存在。

然而，只有少数方法能够从理论上进行推导，大部分方法缺乏这方面的支持。目前很少有方案能够从理论上推导出其能够增加迁移性的有效性。虽然很多方法在实践中被证明是有效的，就像中药一样，每一味中药都经历了几千年的实践验证。但是在现代医学中，我们需要找到这些方法背后的公共效用机理，即它们的根本有效机制。

以图表为例，横坐标代表交互值，纵坐标代表迁移线。我们可以观察到迁移线与实验的验证结果之间有明显的增强关系。虽然迁移线并不是唯一的原因，但我们证明了迁移线是其中一个公共原因。因此，不论是13味还是12味中药，它们都含有能够降低交互的化学物质，从而有效提升对抗迁移性。

因此，我们认为这是一个非常重要的思路。这不仅仅是因为我们的方法可以将该领域中的多种方法统一到一个体系中，更重要的是我们需要这种思路。目前，许多深度学习方法都是基于经验性的，依赖于直觉和经验。尽管这些方法在实践中可能取得了成功，但是我们需要考虑未来10年或5年的发展，我们需要建立一个基于根本原理的理论。

在我们的研究工作中，我们进行了大量的分析，旨在解析某些公共机制，以揭示为何通过降低交互可以提高迁移性。就像提取中药一样，12味中药都含有共同成分，我们将这些成分直接提取并进行精炼，然后进行服用，以探究是否能够增强效果并实施。

我们可以在传统方法上加入新的提取降低交互的方法，这将大幅提升性能，从54.6%提升到98.87%至70.2%提升到99.1%。然而，需要特别注意的是，我们并不是最优的方法。

下一步，我们需要考虑一个问题，即一个神经网络是否天然具有可解释性，即神经网络中的每个神经元是否表示特定的交互。

在这里，我们的目标是提高沙普利值的计算速度，发现沙普利值可以被表示为哈萨尼交互均匀分布的形式。例如，在一个用于图像分类的神经网络中，我们可以将每个图像区域的沙普利值视为哈萨尼交互的结果。因此，从这个角度来看，交互是有意义的。

我们设计了一个神经网络，使得中间层的每个神经元都表示一个特定的交互。这样，我们就能够直接计算神经网络的沙普利值。沙普利值是一种可靠且具有解释性的指标。然而，这个指标的计算复杂度是指数级的，其中指数的底数是输入单元的数量n。
例如，如果有一个由30个单词组成的句子，那么我们需要对每个单词的重要性进行2的30次方次训练。在这2的30次方个不同的正常样本上进行严格计算，并在2的30次方个遮挡样本上进行严格计算，得到神经网络的输出，然后通过这个输出来计算精确的沙普利值。这是一项极其复杂的计算，因为它涉及到指数级的运算。

但实际上，存在许多近似方法来解决这个问题。严格来说，这些近似方法是不可靠的，但在实际应用中，神经网络并不需要非常精确，极端情况下也不会产生最差的结果。在平均情况下，这些近似方法还是相当不错的。
例如，为了计算沙普利值，传统方法要求采样2的n次方个样本来预测输出值。然而，我们可以使用非2的n次方次采样，如10次、100次、1000次等。通过这种方式，我们预测的沙普利值与精确沙普利值之间的误差会逐渐减小。随着采样次数的增加，我们可以使用一些近似的采样方法来近似沙普利值。虽然我们无法获得严格准确的沙普利值，但通过进行几千次、几万次甚至几十万次的采样，并使误差尽可能地减小，我们可以得到一个相对接近的结果。

在我们的方法中，由于神经网络使每个神经元表示一个特定的交互，我们可以通过一次强调传播计算出每个数的重要性。我们可以观察到误差约为10的负8次方，但为什么误差在理论上不是0呢？这是因为实际上神经网络存在系统误差，无法完全消除这种误差。尽管我们的数据在理论上可以达到百分之百的精度，但由于运算误差的积累，实际上我们的结果会与理论值存在一定的偏差。然而，从理论上讲，我们的方法可以将复杂度降为0，即在这个特定的网络上能够实现完全精确的计算。

然而，无论我们采用之前提到的方法进行几百次、几千次、几万次甚至10万次的训练，都无法将复杂度降为0，最多只能将其降低到某个量级，大致接近于零点几的复杂度。因此，我们无法完全消除预测误差。在以训练成本为横坐标的图表中，我们可以清楚地看到进行10次、100次、1000次和1万次训练的巨大突破。

另一方面，从解释性的角度来看，每个交互节点的语义都是明确的。它直接表示了特定的交互，不会产生混乱的表征。然而，我们也必须承认，它的性能可能会受到一些影响。这是一些无法避免的代价，或者至少目前我们还没有找到完全保持性能的方法。

回顾我们整个体系，我们已经发表了27篇相关文章。我们的主要思路是在某些条件下证明神经网络的符号化，并通过重新定义其泛化性、鲁棒性和迁移性来利用神经网络的知识。我们对归因算法和对抗迁移性领域进行了总结，发现存在许多经验性算法、数学本质，通过数学证明，认识到我们不能一直依赖直觉。
未来，我们可能需要一些交流学习的方法。换句话说，我们是否能够跳出大数据训练的框架，通过对话进行交流，在人类的认知层面进行互动和学习。这是我们整个框架需要处理的问题，也是可解释人工智能和解释性人工智能真正应该应对的挑战。

我们需要对一些基本问题进行定义，并通过定理来证明一些机理性问题。通过将这些理论方法严格量化为数学指标，我们才能确保它们在未来的发展中能够提升性能和鲁棒性。
除了loss函数和人为评测之外，我们需要找到一个真正具有机理性内在指标的方法。就像验血可以确定白细胞、红细胞和血小板的数量一样，我们需要找到与之类似的指标，而不仅仅关注外在的指标，如面容和精神状态等。我们需要一些真正与鲁棒性和泛化性严格相关的指标，这样在性能出现过拟合问题之前，就能够迅速问题，并大幅提升训练效率。

📺直播预告

10月31日19:00《追AI的人》第31期

11月1日19:00《追AI的人》第32期

关注公众号发现更多干货❤️

有启发点在看喔👇

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

AI黑盒解密：如何严谨地解释神经网络内在逻辑?如何量化神经网络表征?|《追AI的人》第30期直播回放

关注公众号发现更多干货❤️

超越DeepSeek-R1，数学形式化准确率飙升至84% | 字节&南大开源

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

TRAE推出SOLO模式，业内首个「Context Engineer」来了

这个5亿播放的AI视频，邪乎得平平无奇

B站亮相2025世界人工智能大会，发布最受年轻人关注的TOP30 AI应用

刘强东连投3家具身智能！京东美团「战火」烧到外卖之外

3亿美元薪酬被10人拒绝！OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战

蚂蚁ACL活动全览！论文串讲、人才专项答疑与闭门晚宴等你报名

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

IMO怒斥OpenAI自封夺金，“91位评委均未参与评分”