DeepMind最新研究:这个AI Agent,几分钟学会人类专家行为,登上Nature子刊

545次阅读
没有评论

只需要几分钟,就可以成功模仿专家行为,并记住所有学过的知识Google DeepMind 研发的 AI Agent,登上了 Nature 子刊。

 

据介绍,在 3D 模拟中,该智能体能够在第一次见到的任务中实时模仿专家,并从第三人称视角实时可靠地获取来自人类搭档的知识。

 

虽然该智能体之前从来没有见过人类,但它可以在各种有挑战性的导航问题中从人类和 AI 专家中快速学习。例如,它可以在包含大量障碍的复杂地形中穿梭。

相关研究论文以“Learning few-shot imitation as cultural transmission”为题,已发表在 Nature 子刊 Nature Communications 上。

 

研究团队认为,该研究结果是对具身 AI 实现快速知识传播的一次概念验证,是朝着人类-AI 互动的开放式文化演变迈出的第一步

 

另外,AI 从业者可以从人类社会学习中汲取灵感,构建出适应当下人类伙伴的具身 AI 智能体,并妥善保护隐私。此外,具备社会学习能力的 AI 智能体或许还可以为研究人类文化能力发展提供全新的建模工具。

 

具备实时文化传播能力

 

文化传播(Cultural transmission)是一项通用技能,使人们能够在社交中实时获取和使用信息,同时具备高度的准确度和记忆力。在人类社会中,文化演化使得技能、工具和知识代代相传,并在这些过程中不断积累和完善。

 

在这项工作中,研究团队通过应用智能体-环境共适应(agent environment co-adaptation)的方法,成功生成了一个具备实时文化传播能力的 AI 智能体

 

DeepMind最新研究:这个AI Agent,几分钟学会人类专家行为,登上Nature子刊


如上图,为实现这一目标,他们引入了一个虚拟的 3D 任务空间,每个任务都包含由程序生成的地形、障碍物和目标球


在每个任务中,AI 智能体需要按照特定的循环顺序访问目标球以获取奖励,而这个顺序是在任务开始时随机确定的。然而,AI 智能体并不知道正确的顺序,所以它必须通过实验或从专家那里学习来弄清楚。不过,这个任务空间设计得很复杂,可以通过调整世界的大小、障碍物的数量、地形的崎岖程度以及目标球的数量等参数来改变导航的难度。


研究人员通过精心设计的实验发现,AI 智能体文化传播的出现需要一组最小而充分的训练要素,被命名为 MEDAL-ADR,包括函数逼近、记忆、专家共同参与者、专家丢失、对专家的注意偏向以及自动领域随机化。


DeepMind最新研究:这个AI Agent,几分钟学会人类专家行为,登上Nature子刊

图|MEDAL-ADR 要素


其中,记忆通过 LSTM 网络实现,专家共同参与者是硬编码的机器人,而自动领域随机化有助于训练 AI 智能体在多样化的任务中展现出更好的行为。

 

这些组件的巧妙组合构成了一个强大的 AI 智能体,其文化传播能力在回忆(recall)、泛化(generalisation)和保真度(fidelity)三个方面均表现出色。

 

回忆评估了智能体在没有专家在场的情况下复制演示的能力,泛化衡量了智能体是否能够在未知任务上进行文化传播,而保真度则计算了智能体选择与专家演示者的一致性程度。

 

最引人注目的是,这个 AI 智能体的“大脑”神经元展现出了强大的解释力,专门负责编码社交信息和目标状态。这一方法不仅使 AI 智能体在训练分布之外实现了泛化,而且在专家离开后的单一情境内依然能够回想起演示,为实际应用场景提供了更多可能性,尤其是在人类数据收集困难、任务变化多样且隐私至关重要的情况下。

 


一些局限性

 

尽管该研究提出的 MEDAL-ADR 方法可以使 AI 智能体在开放式学习中适应多样的文化环境。

 

但是,研究者团队也指出了评估方法上的一些局限性。

 

首先,研究没有从多个人中测试文化传播,而是选择了研究团队内的一个单一参与者。因此,研究无法对跨越人群的强大性做出统计显著的断言。

 

其次,导航任务对合理的人类行为的多样性有一定的限制。为了更深入地了解通用的文化传播,研究需要具有更广泛和深度策略的任务。

 

最后,研究人员并未明确区分训练过的智能体是否记住了地理路径,以及是否记住了正确球体顺序。

 

MEDAL-ADR 在 GoalCycle3D 任务空间之外是否更为通用?答案可能是有条件的“否”。

 

GoalCycle3D 是一个庞大的、程序生成的任务空间,其作用类似于更广泛类别任务的导航代表。这些任务涉及到需要反复进行战略选择序列的活动,比如烹饪、导航和问题解决。

 

然而,该方法需要一些环境条件,包括专家的可见性、退出和程序生成。如果在某个环境中无法创建近似条件,那么该方法就无法应用。

 

此外,研究人员并不认为 MEDAL-ADR 方法是人类文化传播发展的直接模型。但是,他们鼓励未来的研究者进行更多实验证明,如比较 MEDAL-ADR 的模型与不同阶段儿童或非人动物的行为,以及在实验室环境中研究人类和 AI 的文化积累。这种实证研究有望加深对文化传播、元学习和开放式学习相关问题的理解。

 

研究团队表示,他们期待未来 AI 和文化进化心理学领域的跨学科交流。

 

论文链接:

https://www.nature.com/articles/s41467-023-42875-2

作者:闫一米 编辑:学术君

|点击关注我 👇 记得标星|

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy