图片来源@视觉中国
文 | 追问NextQuestion,作者 | Anil Ananthaswamy,编译 | 铸雪
尽管ChatGPT和其他大型语言模型取得了巨大成功,但支撑这些系统的人工神经网络(ANN)可能已经步入歧途。
对于马里兰大学的计算机学家Cornelia Fermüller而言,人工神经网络“超级耗电”,“另一个问题在于,这些系统缺乏透明度。”这样的系统非常复杂,以至于没有人真正理解它们正在做什么,或者为什么它们运行得如此之好。反过来,这也几乎不可能使其可以实现类比推理,而这正是人类的做法——使用符号来表示对象、想法及其之间的关系。
这些缺点可能源于现阶段人工神经网络的结构及其构建模块:独立的人工神经元。每个神经元接收输入、执行计算并产生输出。现代人工神经网络是由这些计算单元的精心设计组成的网络,经过训练即可完成特定任务。
然而,人工神经网络的局限性也早已显现出来。例如,让我们来思考如何构建一个用来区分圆形和正方形的ANN。一种思路是在其输出层中包含两个神经元,一个表示圆形,一个表示正方形。如果你想让人工神经网络也能辨别形状的颜色——譬如蓝色与红色——你需要四个输出神经元:蓝色圆形、蓝色正方形、红色圆形和红色正方形。更多的特征意味着更多的神经元。
这不可能是我们的大脑感知自然世界及其所有变化的方式,因为这意味着“对于上述所有组合,神经系统必须有某个对应的神经元”。加州大学伯克利分校的神经科学家Bruno Olshausen指出,“譬如你的大脑中会有一个对应紫色大众汽车的传感器。”
因此Olshausen等给出不同的观点,即大脑中的信息是由大量神经元的活动表征的。因此,对于紫色的大众汽车的感知并非编码为某个单独神经元的活动,而是编码为数千个神经元的活动。同一组神经元,以不同的方式触发,可能代表一个完全不同的概念(也许是一辆粉红色的凯迪拉克)。
这是一种完全不同的计算方式(即所谓超维计算)的起点。其关键在于每条信息,例如汽车的概念,或者它的品牌、型号或颜色,或者所有这些信息,都被表征为一个单一的实体:一个超维向量。
向量不过是一个有序的数字数组。例如,一个三维向量包含三个数字:三维空间中一个点的x、y和z坐标。超维向量,或者说超向量可以是由10000个数字组成的数组,这就代表了10000维空间中的一个点。这些数学对象及其背后的代数原理足够灵活和强大,足以使现代计算超越当前的一些限制,进而孕育出一种新的实现人工智能的路径。
“这几乎是我整个职业生涯中最兴奋的事。”Olshausen如是说。对于他和其他许多人来说,超维计算预示着一个新世界——在这个新世界中,计算是高效和稳健的,机器做出的决策也是完全透明的。
进入高维空间
为了理解超向量如何使计算成为可能,让我们回到前文红色圆形和蓝色正方形图像的例子。首先,我们需要向量来表示变量“形状”和“颜色”。其次我们还需要向量来表示前面变量的赋值,即“圆”“方”和“红”“蓝”。
不同属性的向量必须是不同的。这种差异可以通过被称为正交性的属性来量化,正交性本义指的是“成直角”。在三维空间中,可以找到这样的相互正交向量:一个向量在x方向,另一个在y方向,第三个在z方向。而在10000维空间中,就会有10000个这样相互正交的向量。
但是,如果我们允许向量可以近乎正交,那么高维空间中此类的不同向量的数量就会激增。在10000维空间中,就有数百万个近乎正交的向量。
现在让我们构造不同的向量来表示“形状”“颜色”“圆”“方”“红”“蓝”。因为在高维空间中有很多可能的近乎正交的向量,所以你可以只分配六个随机向量来表示这六个项目;它们几乎可以保证是近乎正交的。“构造近乎正交向量的便捷性是使用超维表示的主要原因,”加州大学伯克利分校瑞德伍德理论神经科学研究中心研究员Pentti Kanerva在2009年的一篇颇具影响力的论文中写道。
这篇论文的基础是Kanerva和Tony Plate在上世纪九十年代中期的工作,当时他们是多伦多大学的博士生,师从Geoff Hinton。两人独立地发展了用于操作超向量的代数,并暗示了其在高维计算中的实用性。
对于我们有关形状和颜色超向量,Kanerva和Plate发展的系统向我们展示了如何使用某些数学运算来操作它们。这些操作对应于对概念进行符号化操作的方式。
第一种运算是乘法。这是一种将观念结合的方式。例如,将向量“形状”与向量“圆形”相乘可将两者绑定,用以表示“形状是圆形”这一观念。这个新的“绑定”向量近乎与“形状”和“圆形”正交。此外各个元素是可恢复的——如果想从绑定的向量中提取信息,这一特效就显得至关重要。给出一个代表你的大众汽车的绑定向量,你可以解除这种绑定并检索到颜色对应的向量,例如“紫色”。
第二种运算是加法。这表示利用所谓概念的叠加来构造一个新的向量。例如,将两个绑定向量“形状是圆形”和“颜色是红色”相加,创建一个表示“红色圆形”的向量。同样地,相加后的向量可以被逆向分解为构成它的向量。
第三种运算是置换。这涉及将向量的各个元素重新排列。例如,对于一个三维向量,三个元素分别记为x、y和z,则置换可能会将x移动到y处,将y移动到z处,而将z移动到x处。“置换允许你构造结构,”Kanerva指出,“置换运算允许你处理序列,序列代表了一个接一个发生的事情。”考察两个事件,由超向量A和B表示。我们可以将它们叠加到一个向量中,但这会破坏有关事件顺序的信息。将加法与置换运算相结合可以保留顺序信息;我们还可以通过逆运算对事件按顺序进行检索。
上述三种运算证明我们足以创建允许符号推理的形式化的超向量代数。但是许多研究人员在发掘超维计算潜力方面的进展很缓慢,包括Olshausen本人。他解释道:“但它只是还没有被充分理解。”
利用高维的力量
2015年,Olshausen的一名学生Eric Weiss展示了超维计算独特能力的一个方面。Weiss解释了如何将复杂图像表示为一个单独的超维向量,该向量包含有关图像中所有对象的信息,包括它们的属性,例如颜色、位置和大小。
“我兴奋地几乎从椅子上掉下来了,”Olshausen说道,“突然之间,灵感来了。”
很快,更多的团队开始开发超维算法来复制深度神经网络在大约20年前就开始处理的简单任务,例如图像分类。
考察一个由手写数字的图像组成的注释数据集。有一种算法能使用某种预定方案分析每个图像的特征,然后为每个图像创建一个超向量。接下来,该算法为数字0所对应的所有图像添加超向量,以便为数字0这一概念构造一个超向量。紧接着其对所有数字执行相同的操作,创建10“类”超向量,对应每个数字。
之后给算法一个未标记的图像。它为这个新的图像创建一个超向量,然后将超向量与存储的10类超向量进行比对,以此确定与新图像最相似的数字。
然而,这仅仅是开始。超维计算的优势在于其能够通过合成和分解超向量进行推理。最新的成果演示是在今年3月份,彼时IBM苏黎世研究院的Abbas Rahimi及其同事使用神经网络进行超维计算来解决抽象视觉推理中的一个经典问题——这对传统的人工神经网络甚至某些人而言都是一个重大挑战。这个问题被称为瑞文推理测验,测验给出3×3的网格,网格中给出几何对象的图像。但其中有一个位置是空白的,受试者必须从一组候选图像中选择最适合空白位置的图像。
“我们当时说,‘这真的是……视觉抽象推理领域的杀手级实例,让我们从这里开始吧!’”Rahimi回忆道。
为了使用超维计算解决这个问题,该团队首先构造了一个超向量字典来表示每张图像中的对象,字典中的每个超向量代表一个对象及其属性的某种组合。然后,该团队训练了一个神经网络来检查图像并生成一个双极超向量——向量的元素可以是+1或-1——其与字典中超向量的某种叠加尽可能接近。因此,生成的超向量包含有关图像中所有对象及其属性的信息。“你可以将神经网络引导到一个有意义的概念空间。”Rahimi解释道。
一旦网络为每个上下文图像以及空白位的每个候选对象生成了超向量,相应地另一种算法就会分析这些超向量,并为每个图像中的对象数量、大小和其他特征创建概率分布。这些概率分布说明了上下文和候选图像的可能特征,可以被转换为超向量,允许使用代数来预测最有可能的候选图像来填充空白位。
他们的方法在一组问题上的准确率接近88%,而仅使用神经网络的方案准确率不到61%。该团队的研究还显示,对于3×3网格,他们系统的运算速度是使用符号逻辑规则进行推理的传统方法的近250倍,因为传统方法必须检索大量规则之后才能确定正确的下一步。
充满希望的起点
超维计算不仅赋予我们符号化地解决问题的能力,同时也解决了一些传统计算所面临的棘手问题。如果由随机位反转(某个0变为1,或者反过来)引起的错误无法通过内置纠错机制纠正,则当今计算机的性能会迅速下降。此外,美国维拉诺瓦大学计算机科学家Xun Jiao表示,这些纠错机制可能会对性能造成高达25%的损失。
而超维计算更能够容忍错误,因为即使超向量遭遇大量随机位反转,其仍然接近原始向量。这意味着使用这些向量的任何推理在面对错误时都不会受到重要的影响。Jiao团队的研究已经表明,这些系统对硬件故障的容忍度至少是传统人工神经网络的10倍,而传统人工神经网络本身的弹性比传统计算架构高出几个数量级。Jiao认为,“我们可以利用上述各种弹性来设计高效的硬件。”
超维计算的另一个优势在于其透明性。代数可以清楚地告诉我们系统给出其答案的原因。传统的神经网络则无法实现。Olshausen、Rahimi等正在开发混合系统,其中神经网络将物理世界中的事物映射到超向量,然后由超维代数接管。“类比推理之类的东西应该自然而然,”Olshausen说,“这是我们对任何人工智能系统的期望。我们应该能够像理解飞机或电视机一样理解它。”
与传统计算相比,超维计算所具有的各种优势都表明其非常适合新一代硬件极可靠且低功耗的要求。它还与“内存计算系统”相兼容,后者在存储数据的同一硬件上执行计算(不同于现有的冯·诺依曼计算机,后者需要在内存和中央处理器之间低效地传输数据)。这些新设备中的一些可以找到替代策略,如在非常低的电压下运行,从而使其节能,但这也容易产生随机噪声。对于冯·诺依曼结构,这种随机性是“无法逾越的墙,”Olshausen指出,但如果使用超维计算,“就可以直接穿透这堵墙”。
尽管有上述优势,超维计算仍处于起步阶段。“这是真正有潜力的研究方向。”Fermüller回应说。但她同时指出,超维计算仍然需要针对现实世界的问题进行测试,并需要在更大范围,更接近现代神经网络的规模下进行测试。
“对于大规模问题而言,亟需非常高效的硬件。”Rahimi指出,“例如,对于超过10亿个项目,如何才能有效地搜索?”
Kanerva则表示,所有这些都将随着时间的推移而到来。“高维空间还有其他秘密,而我认为这正是使用向量计算时代的开端。”
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App