多主体智能综述:社会互动启发的人工智能进化

657次阅读
没有评论

多主体智能综述:社会互动启发的人工智能进化

导语

传统的人工智能与复杂系统建模研究主要集中在单一主体的学习和优化上,但这种方法在处理复杂、动态和不确定的环境时面临着局限性。在自然界中,智能行为往往是通过多个互动主体的集体行为和协作来实现的。尤其是作为集体的人类智能,具备通过社会互动与学习持续创新的能力。因此研究人工智能如何通过社会学习和文化演化来模仿这种人类智能的特性,成为重要研究课题。近期发表在 Nature Machine Intelligence 杂志的一篇综述文章,探讨了如何通过社会学习、生物进化和文化演化的途径来实现类人的人工智能。论文主张,通过模拟人类社会和文化中的多层次互动,可以促进人工智能系统持续的复合创新。新一代的人工智能系统,将通过智能主体的数据生成、智能主体之间的博弈互动,超越人类数据的限制。
研究领域:人工智能,复杂系统建模,多主体智能,社会学习,自然演化多主体智能综述:社会互动启发的人工智能进化Edgar A. Duéñez-Guzmán, Suzanne Sadedin, Jane X. Wang等 | 作者刘培 | 译者

多主体智能综述:社会互动启发的人工智能进化论文题目:A social path to human-like artificial intelligence论文地址:https://www.nature.com/articles/s42256-023-00754-x
目录

一、引言

二、集体生活

三、社会关系

四、进化中的重大转变

五、展望





一、引言




传统上,认知科学家和计算机科学家将智能视为孤立存在的单一主体(agent,即智能体)的属性,与社会背景无关。然而,随着当代学习算法的成功,我们认为人工智能发展的瓶颈正在从数据吸收转向新型数据生成。我们汇集了证据,表明自然智能是通过相互作用主体的网络、集体生活、社会关系和重大的进化转变在多个层面上产生的,这些因素通过种群压力、军备竞赛、马基雅维利选择、社会学习和累积文化等机制促进了新型数据的生成。在人工智能领域,许多突破都利用了这些过程,从多主体(multi-agent)结构使算法能够掌握复杂的游戏,如夺旗战和星际争霸II,到游戏《外交》中的策略沟通,以及其他人工智能对数据流的塑造。超越对主体的孤立观点,将这些机制整合起来,可能为实现类人的(human-like)复合创新提供一条路径,通过持续的新型数据生成来推动创新。
人工智能发展史中的一个重要经验教训是,智能行为在学习系统中的涌现程度,与用于训练的数据集的规模成比例。当前的大模型是在庞大的数据集上进行训练的,并在各种任务中获得了人类水平的表现,尤其是在自然语言领域,而且在多模态领域中的表现也越来越好。尽管这些训练数据集很大,但它们对于训练的模型来说是外部的;因此,它们的学习依赖于数据中的关系,并受到其限制(图1a)。即使数据集非常大,通过对任何此类静态数据集进行训练,可能也存在一定的限制。例如,在双缝实验推动量子物理学发展之前,如果一个算法是在人类所有知识的基础上进行训练的,它将无法预测实验结果。为了克服这个问题,算法需要生成自己的数据。强化学习算法可以做到这一点。强化学习(reinforcement learning)算法通过与环境互动并观察通过自身行为达到的新状态来学习,从而为自身生成不断增长的数据集(图1b)。在计算机模拟中运行的强化学习主体可以无限地生成数据,因此如果它们的认知能力与数据集的规模成比例,研究者可以预期从这种方法中看到显著的结果。然而,通常情况下并非如此。在小而静态的世界中,强化学习主体会收敛到反复执行相同动作的行为,不会生成新的数据。当发生这种情况时,它们的学习停滞不前。在自然语言处理领域,一系列研究正在通过以复杂的方式生成自己的训练数据来改善模型的性能。然而,简单地让模型在自动生成的数据上进行训练往往会移除数据分布的尾部,降低所产生的数据流的质量,从而限制后续的学习。在这个观点中,我们认为下一代的智能系统可以通过不断自组织的多尺度、多主体交互中生成新颖数据的方式,超越数据限制
多主体智能综述:社会互动启发的人工智能进化

图1学习主体的提升取决于其数据集的丰富程度和规模。a一个单独的主体从一个庞大但静态的数据集中进行学习。b与世界的互动使主体能够生成自己的数据,但可能会陷入局部最小值,限制了数据集的丰富性。c其他主体(不同颜色)通过改变主体所交互的世界来丰富数据集。


强化学习算法增强那些虽然罕见但被系统奖励的行为,从而有效放大最具收益潜力的行为模式。如果初始行为分布涵盖了所有相关状态,这种方法效果很好。然而,当世界足够大,以至于初始行为分布只涵盖了一个相对微小的子空间时,智能主体必须创造全新的行为模式,这些新行为模式几乎不可能偶然出现。主体的数据流可能因其行为而改变,但等待复杂有益行为的偶然出现所需时间可能过长,以致于无法形成有效的学习梯度,从而不足以激发更深入的探索。改进强化学习算法中探索过程的一种方法是使环境适应主体。另一种方法是将探索作为目标的一个明确部分。在内在动机模型中,后者是通过融入好奇心模型来追寻新状态,或通过主体体自我设定内在目标来实现的。然而,这导致了一个权衡:计算必须在寻求新目标(即探索)和改进现有目标的行为(即利用)之间取得平衡。已经投入了大量的研究工作来平衡这种权衡,并且已知一些界限。有些方法试图绕开这种权衡,例如通过专注于那些能取得显著进步的内在目标。但是一个棘手的困难仍然存在:即使设计者可以避免探索-利用的权衡,他们仍然必须决定探索的方向。
在本文发展的观点中,探索和利用相辅相成,而不是对立的。“利用”推动“探索”朝正确的方向发展,因为创新是在之前的创新基础上建立的。我们称这种效应为复合创新(compounding innovation)。从机制上讲,复合创新发生在利用不断产生新数据,为学习创造机会时:通过利用来探索。我们认为,复合创新在生物进化中出现,因为环境会随着生物单元间特定类型的互动而不断变化。这些互动促成了人类文化的进化——产生最智能算法所需训练数据的过程。我们能在人工学习系统中创造类似的互动吗?在多主体系统中,任何一个主体的行为都会影响其他主体的数据流(见图1c),这暗示了持续学习的一种可能路径。然而,现代多主体算法仍未能实现复合创新。在这里,我们考虑了生物系统中出现的三种广泛的社会结构形式,每种都以不同类型的社会互动为特征(见图2),这可能以不同的方式促进复合创新。首先,我们讨论了“集体生活”(collective living)的含义:主体间的竞争通过打破局部平衡创造新数据,常常自然地产生促进行为创新的学习机会序列。其次,我们考察了社会关系(social relationships)如何促进个体间的合作,并有助于与人类行为相关的认知形式,包括社会学习和马基雅维利式选择。最后,我们讨论了进化中的重大转变(major transitions)及其通过语言在人类文化演化中的作用。重大转变同时调节多个层面的互动,导致单元专门化、合作和竞争,以解决更高抽象层次的目标。在这样的系统中,学习和主体性同样在多个层面上出现,低层次主体通过调整井进行微调,高层次主体重则新组合并协调这些技能,从而实现创新的复合效应。
多主体智能综述:社会互动启发的人工智能进化

图2 复合创新的三个驱动因素中的互动,具有根本差异。a, 集体生活中的主体互动是匿名的,由邻近性(由阴影区域表示)调节。b, 在社会关系中,个体的身份(节点颜色)及其关系(连接它们的边的颜色和大小)在互动中很重要,创建了促进合作和社会学习的网络。c, 重大转变导致多尺度主体的进化(显示为圆圈内的圆圈),其中大尺度主体(彩色圆圈中的分组节点)调节小尺度主体的环境。





二、集体生活




群居生物通常会发展出社会行为,使得分散的群体能够快速察觉和应对威胁与机会,而无需合作或建立个体之间的关系。例如,细菌的群体感应、植物和动物的警报信号,以及老鼠的集体迷宫学习。当个体之间的相互作用成为产生新的结果并改变适应性环境的源头时,集体生活比单一主体系统能够实现更深层次的创新。在多主体系统中,这种相互作用可以提供自动课程(autocurricula)——自然产生的数据呈现序列,可能有助于学习。自动课程是一种让系统自动调节的训练策略,即通过生成一系列逐渐增加难度的任务或问题,再通过解决问题来学习和提升,常用于强化学习。
自组织使得只凭借局部信息的个体能够展现出在全局尺度上的适应性行为。在人工智能领域,例如群体智能和模拟社会困境、协调、通信等的多主体强化学习系统。然而,这些模型中的学习通常会收敛到静态或循环的平衡状态。它们无法在数据流中持续产生新颖性,因此无法单独实现复合创新。接下来,我们将重点介绍两个可能促进复合创新的集体生活过程:种群压力和军备竞赛。
(一) 种群压力
在资源有限的环境中,种群的增长导致竞争,而选择会偏向那些能够找到并利用未被充分利用的资源的个体。适应动力学模型表明,这种选择可以推动进化策略的多样化,就像在殖民事件后观察到的适应性辐射一样。适应性辐射即从一个单一的祖先种群中演化出许多新物种,这些新物种能够利用不同的生态位或资源。
这些思想被应用于遗传算法中,以在多目标优化中保持多样性。在多主体强化学习中,它们引发了马尔萨斯强化学习的概念,其中子群体的大小根据其回报波动,从而在局部产生种群压力,驱使主体远离次优的平衡状态。在人工生命和进化计算领域,这种竞争导致了一些系统的创新,它们利用了目标设定错误或环境实施中的错误,超出其创造者的预期。
种群压力自动激励单个主体寻求新的信息。然而,这种搜索并非无限的,因为它取决于主体之间的竞争;合作均衡往往难以实现。
(二) 军备竞赛
自然选择中的正反馈循环可以引发进化的竞争,驱使极端特征的演化。例如,当猎豹进化出更快的速度以捕捉猎物时,它们对猎物施加了选择压力,促使猎物变得更快,进而对猎豹产生更大的选择压力。
在多主体系统中,军备竞赛可以提供自动学习环境,使各主体不断适应彼此的创新。因此,在任何阶段,大多数互动都发生在能力相近的主体之间。这样,主体面临的挑战与周围主体的能力成比例,从而为学习提供了通往原本难以达到的最优解的逐渐变化的机会(类似于猎豹和瞪羚的军备竞赛)。在多主体强化学习、机器人技术和人工生命领域,使用军备竞赛的自动学习环境已被证明可以逐步培养出越来越复杂的技能。
利用自动课程,我们可以创建相互协调的算法,例如通过为主体提供具有学习挑战的动态环境,或者通过生成内在动机系统来设定自身目标。其他一些算法通过自我对弈来实现明确的目标,比如在游戏中击败人类专家。在这些情况下,直接让智能主体与大师对战的训练很可能会失败:未经训练的主体永远无法赢得游戏,因此无法获得任何奖励信号来进行学习。而多主体自我对弈则使得天真的主体能够发现对抗其他天真的主体的有效策略。当主体的行为学习逐渐趋于局部最优解时,对手接收到的数据分布也会发生变化。利用那些已知的最优解策略会变得越来越有价值,从而激励主体去探索新的解决方案。
有证据表明,仅仅通过军备竞赛进行创新是有限的。在双人零和博弈中,随着主体技能的提高,可能的策略空间会收缩到一小组无法相互转化的策略之中。因此,主体经验的新奇性会停滞不前。复合创新似乎只在双人零和情况之外才可能实现,进一步的互动才可以持续丰富主体的经验。在许多情况下,这些互动会产生(强化学习对)社会关系的激励。



三、社会关系




除了适应集体生活的普遍挑战外,持续群体(稳定并长期存续的群体)中的主体通过将其他个体视为独特的个体,可以获得优势。这些社会压力以及为应对它们而进化的认知机制(框1)导致了社会困境,即尽管存在风险,但仍有可能进行互惠互利的互动。对于集体智能而言,社会学习是特别受关注的课题,即个体通过模仿成功的群体成员来学习新技能。当主体建立社会关系时,这改变了它们所接触到的信息流,为策略性沟通和相关军备竞赛创造了新的激励。然而,在没有其他力量的情况下,这些机制可能会陷入新的集体平衡状态。
框1:社会关系和重大进化转变的生物基础
不同物种中个体之间的社会关系多种多样,但在脊椎动物中最为人熟知。像狮子和瓶鼻海豚这样的群体猎手利用猎物的集体警觉性,协同进行伏击。配对的物种可能在育儿中采取性别特定的角色,进行时间分工,或者像抓蝦蛄那样在没有育儿的情况下合作。在无亲缘关系的个体组成的持续社会群体中,会出现互惠和联盟,而当亲缘关系较高时,常常会出现异育和劳动分工。从博弈论的角度来看,这些行为形成了多样化的迭代多主体社会困境,支持了丰富的策略空间。
关系中的一个关键方面是社会联结,即个体之间形成偏好的纽带。合作的个体并不是从一张白纸开始学习如何解决社会困境,而是依靠预先编码的神经内分泌网络来组织结合关系。社会联结减轻了管理关系的认知负荷,从而为社会大脑的演化提供了进化基础。
以哺乳动物为例,哺乳期使得母子关系对于适应性至关重要。分娩和哺乳期间催产素的激增触发多巴胺和内源性阿片类物质的释放,这有助于学习、依恋以及母子之间敏感的交流。在婴儿期间,如触碰、发声和相互注视等行为也会引发额外的催产素释放,从而强化这些模式。这些行为和神经内分泌反馈提供了一种进化模板,用于形成其他哺乳动物主要是亲社会性的社会联结。配对关系、友谊和团体合作系统都是基于此模板扩展出来的,它们利用行为触发器(如眼神交流、梳理毛发、发声和协调舞蹈)来刺激社交联结的神经化学过程。例如,雄性黑猩猩通过梳理毛发建立并维持联盟;联盟是影响配对成功率进而影响适应性的关键因素。
当社会群体接近重大转变时,个体的认知精细化可能会下降,因为新出现的更高层级的单元(包含着低层级个体)正在进化,以调节这些个体间反馈。当劳动分工出现时,底层单元的通用认知能力可能会造成效率低下,甚至对集体控制构成威胁。基因组中的自私遗传元素、多细胞生物中的癌症以及真社会性生物中工蜂的繁殖都是经典例子,其中较小规模的创新威胁到较大规模的实体,驱动着代价高昂的监管适应。这导致了一个跨尺度显而易见的模式,即系统重的单元变得简化和相互依赖。线粒体和叶绿体开始依赖核基因,形成相互依赖的组织和器官的细胞无法单独存活,而真社会性昆虫形成了脑部较小的专门化种群。
同样的趋势也出现在社会性哺乳动物中:随着群体内亲缘关系的增加,劳动分工、异代抚养和繁殖抑制开始出现,而攻击行为、互惠行为和联盟形成以及大脑和新皮层大小都随之下降。在人类驯化的哺乳动物中(可能包括人类),已经注意到一种综合症,其中进化延迟了调控大脑容量、面部形态和攻击行为的神经嵴发育路径,从而产生了延长的幼年期以及脑部较小、友好、持续幼态的成年(早)期。因此,尽管重大进化转变为集体认知开辟了新可能性,但由于统一集体的控制需求,它在数据生成方面可能最终受到自我限制。
(一)马基雅维利式的自然选择
具备对群体结构和关系的意识的认知能力使得劳动分工、互惠和联盟形成成为可能,但同时也引发了社会困境,因为个体可以选择性地从合作中获益。社会大脑(或马基雅维利智能)假说提出,在这种关系中产生的竞争和合作相互作用在认知演化中产生了正反馈。从理论上讲,改善社会认知能力可以使个体更好地预测和控制他人,同时使个体自身更难以被预测,从而形成一场认知的竞赛。例如,长期关系为复杂的认知策略提供了空间,例如互惠,而互惠又激励了策略性的作弊、作弊者检测和作弊者对检测的逃避。这种社会认知的自我学习可能导致认知演化失控。理论结果表明,在进行双人零和博弈的群体中,适当选择哪个主体与哪个主体进行训练,以及谁从中获得经验,可以在极限情况下实现最优行为。个体之间互动的特定结构的重要性进一步由Vinyl’s等人进行了阐述。在自我对弈模型取得成功的基础上,Alpha Star模型通过扩展多人训练,建立了多个不同的对抗团队池,每个池都强制学习特定的策略。通过在多个池中进行训练,主体对于各种不同的对抗策略都能保持稳健,达到了与《星际争霸II》冠军选手相媲美的表现。将这些技术与大型语言模型相结合,通过自然语言传达意图,使得在《外交》游戏中达到了人类水平的表现。
(二)社会学习
个体可以通过模仿他人的行为来学习新的技能。在某些物种中,这种社会学习的创新可以传播并在世代之间持续存在,形成文化传统。动物的传统包括鸣唱、迁徙路线和觅食技巧(如鲸类和鸟类),以及配偶偏好和日常路线(如鱼类)等。在人类中,社会学习被认为是群体合作的关键因素。然而,社会学习可能会受到自我限制:当创新具有成本时,模仿可能会取代创新,从而导致总体创新减少,进而降低了模仿的价值。
社会学习的集体结果也极其受网络拓扑结构的影响,这一点通过基于主体的创新模型已有论证。行为实验表明,拓扑结构影响创新的传播、信念的传播和集体记忆的动力学。最优的拓扑结构取决于任务的性质:对于面临集体问题解决挑战的群体来说,分散的网络似乎最为有效,而集中化的拓扑结构则有助于群体的创新和集体行动。
由于在人类智能中扮演着核心角色,社会学习吸引了人工智能界的广泛关注,涌现出了各种技术,包括模仿学习、从观察中克隆行为、生成对抗模仿学习、对人类先验知识进行正则化等。社会学习也可以在强化学习主体中自发产生。例如,它们可以轻松地学会跟随一个更有知识的主体穿过迷宫。这种涌现的社会学习策略可以在新环境和陌生专家的情况下出现。Nikiti等人认为,与人类类似,强化学习主体在动态的通信拓扑中分享经验时,可以最好地发现分层创新。这些社会学习算法旨在引导主体的学习过程,使其无需完全独立学习。对社会学习行为的微调仍然通过强化学习进行。然而,这种类型的社会学习并不会导致创新的复合增长,因为主体学习的数据中已经包含了学习到的行为。
收敛的证据表明,由社会学习驱动的人类级别的复合创新(也就是文化演化)是由种群压力、社会关系和其他进化力量之间灵活多尺度的相互作用产生的。为了有效地利用社会学习进行持续的数据生成,我们首先必须了解这些多尺度相互作用的动力学。



四、进化中的重大转变




从基因开始,自然选择的单位(即单元)在多个层次上相互作用。较低层次的单元之间的异质性相互作用会形成集群,这些集群本身可以独立受到自然选择的影响,从而形成更高层次的单元。对于较低层次的单元来说,选择通常会倾向于合作,因为它们的成功与整个群体的成功密切相关。在这样的群体中,可能会出现新的信息传递机制来协调行为。这些机制使得群体能够更高效地自我控制,从而导致了新的群体层次中个体性质的进化。这类事件被称为重大的进化转变。重大转变创造了一系列相互促进的进化趋势,其中选择偏向于协调合作、分工以及冲突的抑制或引导。重大转变的例子包括染色体的起源、内共生、多细胞生物、神经系统、真社会性动物和人类的文化积累。
重大转变范式提供了洞察力,揭示了自然集体如何通过动态重新调整激励和相互作用来影响其内部的适应性环境。信息传递使得集体能够通过竞争和合作的激励来塑造较低层次单元的数据流,超越自然选择,推动符合自身利益的行为。例如,多细胞生物中的细胞制造出一种细胞外基质,既提供相互支持又进行竞争,以抑制有害突变并清除受损细胞。在哺乳动物的发育过程中,细胞的过度生产后会进行竞争性修剪,促使那些建立了适当社会联系的细胞获得优势。蚂蚁的竞争性信息素路径和蜜蜂的摇摆舞蹈基于个体的私人信息,引导集体做出理性的觅食决策。
在某些情况下,单元面临社会困境,其中单方面偏离自私行为会受到打压,但是如果联合偏离可以摆脱不良均衡的吸引盆(系统状态趋向并最终稳定在某一点或一系列点的区域,这些点或路径代表系统的长期行为模式),那么就会受益于更高层次的单元,也许是与其他更高层次的单元竞争。这种情况下,就会有选择压力来塑造较低层次单元的数据流,使它们都面临一个偏好合作的二元选择。这将导致所有单元以相关的方式改变策略,从而摆脱原来的困境。类似地,更高层次的单元可以通过适当操纵数据流,促进单元群集之间的竞争和军备竞赛,从而实现专业化和分工。
机器学习领域,利用具有一致激励的集体来解决问题的想法,已经从多个角度进行了探索。通过手动对齐,我们能够在各种情境中实现合作和协调,包括任务划分和规范形成。群体机器人(Swarm robotics)探索了如何利用局部信息和行为来实现理想的整体行为,而合作多主体强化学习则专注于设计能够改进学习有用行为的算法。然而,所有这些方法往往都很脆弱,并且在面对新情境时很难进行泛化。分层强化学习将问题分解为层次化的表示,其中低层控制器在细粒度尺度上实施策略(例如通过解决子任务),而高层控制器决定选择哪个低层控制器以及持续多长时间。因此,高层控制器通过组织一组半独立的策略来实现整个系统的端到端学习。然而,高层控制器和低层控制器之间的学习尺度相互作用带来了挑战。为了使控制器学会有效地部署单元,这些单元必须已经具备能力和专业化,但是为了使单元学习到有用的策略,它们需要一种关于解决高层问题的有用性的学习信号。
人工智能领域近期的研究,探索了学习过程中出现对齐的情景,例如主体由在信用分配方面经受群体选择压力的子主体所组成,或演化出促进合作的混合激励规则,或由一个全局智能主体塑造一组自私学习者的激励机制。这些方法表明,更高层次的过程可以在较低层次上产生激励对齐,从而实现协调。
就协调而言,当通过操作低层单元所经历的数据来实现协调时,低层单元的智能具有双重作用:智能单元可能更有用,但简单的单元更容易控制。在重大进化转变中,一个反复观察到的效应是,随着时间的推移,低层单元变得越来越简化(见框1)。这可能限制了持续的数据生成,至少在非累积文化的情况下。
(一)文化的积累
虽然有证据表明动物也存在文化传统,但人类似乎通过语言和主动教学这些独特的适应方式,实现了准确灵活的信息传递,使得学习的信息能够在多个世代中累积(即积累文化)。累积文化是人类技术和知识不断创新的机制。
Herrmann等人认为,扩展的社会学习为认知灵活性提供了动力,随着人群中学习的技能套装在多个世代中不断扩展和完善,这种自我强化的循环可能同时解释了人类脑容量的增加、认知灵活性的提升、分工的形成以及技术进化。而构成性语言(即语言的构成性原则,复杂表达方式的意义由其简单组成部分和它们的结构方式所决定)则是这一过程的关键,它允许从现有的表达中构建出新的有意义的表达。在语言出现之前,基于马基雅维利主义或社会学习的自动课程,虽然在原则上可能会失控,在大脑容量上受到了物理的和生物能量方面的约束。而语言通过口头传统实现了高效分布的数据表示和存储,从而放松了这些约束。
通过语言进行高效的信息传递,使得群体的行为适应能够超越自然选择的速度。因此,语言的起源可以说是一个重大进化转变。然而,与多细胞生物的转变不同,文化转变尚未导致离散超有机体的涌现。相反,社会群体和个体并存,个体在交叠的群体间自由流动。语言使得文化结构能够调整人类的数据流,动态管理人类的激励机制,使群体能够灵活地重塑社交网络拓扑以适应当前问题、产生合作,并通过规范和制度引导竞争以获取群体层面的利益。机构可以组织多样化的个人动机,使其与社会需求保持一致,例如通过讲述故事、建立声誉、惩罚和经济激励。通过这种方式,人类社会便能够借助自我激励驱动的个体大脑,在各种专门任务上表现杰出,而不损伤文化层面上的普遍性。
人工智能是否能实现相似的效果呢?研究已经证明,只要训练压力适当,符号通信可以在多主体环境中涌现。近期,包括GPT-3和PaLM在内的大语言模型展示了这样的能力:通过大规模地训练生成人类自然语言水平的文本,它们可以进行多元话题的对话,并从极少的示例中适应新任务。有论点认为,这类模型可能难以始终将词汇与其在物理或社会世界中的意义一致对应。然而,有一些颇具希望的方法可缓解此问题,例如利用多模态数据集将不同模态间的概念关联起来、让语言模型与物理世界的模拟器建立联系,或是使语言模型接入互联网搜索引擎。近期一些研究提出,语言可直接作为学习环境使用,为孤立的智能主体赋予其自身目标。
大语言模型已经被用于在互联网上产生大量的内容。对于人类来说,持续的文化数据生成,是由种群压力、进化竞赛和社会关系所支撑的自动课程,通过多尺度文化选择进行引导,以实现灵活和动态的合作劳动分工以及专业技能。也许类似的过程已经开始在互联网上展开,人类和人工智能正在生成有利于人工智能累积文化的数据流。然而,初步结果显示,对这些模型自身输出的训练可能会导致它们崩溃,在每次连续重训后都会失去更多数据分布的尾部。考虑其数据流来源和动力学仍然至关重要。



 五、展望




许多当代研究者强调数据丰富的环境对学习系统的重要性,我们今天最成功的算法有效地利用了人类累积的信息产出。事实上,有人认为,实现通用人工智能只是消耗更多这类数据的问题。但吸收并不意味着创造。随着大语言模型超越人类的数据生成能力,人类文化的集体输出可能会成为人工智能发展的瓶颈。
从进化的视角中我们可以得到一种启示:持续的数据生成可能源于主体间的结构化互动,它们在种群中进行竞争和合作。特定的互动结构产生自动课程,包括社会关系、通过社会学习进行的多尺度协调、劳动分工以及累积文化传播。在生物学中,这些过程不断调节个体接收的数据流。种群压力减少了对已知最优解的吸引力,降低了收敛到静态或周期性数据流的可能性。军备竞赛提炼了与特殊技能相关的经验。社会关系允许个体之间进行合作、谈判并相互学习、传播创新,并揭示出孤立主体无法接触到的合作均衡。重大进化转变产生了协调良好的超级有机体,在这些有机体中,低层次单元之间的冲突和合作通过高层次单元的数据控制进行组织,从而实现低层次单元之间高效的劳动分工。最后,构成性语言让人类能够在动态结构化的社交网络中快速操作和分享数据流,为灵活学习和前所未有地多尺度劳动分工提供了机会。虽然这些机制之间存在一些重叠,但每一种都由特定类型的互动标记,以不同方式影响可供学习的数据流。
从个体角度看,本文讨论的每一种机制在寻求能够实现复合创新的人工系统方面都只取得了部分成功。我们认为,一个将所有这些机制结合起来的系统更有可能成功。但如何将它们结合呢?可以设计一个系统,使得所有这些机制都能从第一性原理涌现而来,或者可以将每个机制的主要方面数字化,将其硬编码到系统中。我们认为正确的方法应该是介于两者之间。有些方面需要涌现和灵活性,比如重大转变和累积文化中灵活的激励对齐和数据操作。然而,另一些方面可能需要工程化的解决方案,比如为主体提供好奇心或社会学习模块。
近几十年来,学习算法呈现出了类似寒武纪大爆发的景象,其中许多算法都受到生命系统的启发。在机器学习领域,已经采用了多种不同的算法方法来表示这些生物过程的基础。我们在此提出上述方法,不仅整合人工智能的组成部分,而且还整合其底层生成过程,特别是那些通过丰富数据流来引导复合创新的机制。

AGI读书会启动


为了深入探讨 AGI 相关话题,集智俱乐部联合集萃深度感知技术研究所所长岳玉涛、麻省理工学院博士沈马成、天普大学博士生徐博文,共同发起 AGI 读书会,涵盖主题包括:智能的定义与度量、智能的原理、大语言模型与信息世界的智能、感知与具身智能、多视角下的人工智能、对齐技术与AGI安全性、AGI时代的未来社会。读书会从2023年9月21日开始,每周四晚上 19:00-21:00,预计持续7-10周。欢迎感兴趣的朋友报名参与!


多主体智能综述:社会互动启发的人工智能进化


详情请见:

AGI 读书会启动:迈向通用人工智能的跨学科路径



推荐阅读

1.  通往具身通用智能:如何让机器从自然模态中学习到世界模型?2.  Science:穿梭于个体大脑与群体大脑之间探索社会智能3. 社会智能:复杂的大脑渴望与其他大脑和谐共处4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5. 加入集智学园VIP,一次性获取集智平台所有内容资源6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy