大模型时代的智能体 (II):为什么是LLMs?

674次阅读
没有评论

 

导读:人类一直试图打造一种可以自主完成预设目标的代理或实体,即智能体 (AI Agents  Agents),以协助人类完成各种各样繁琐的任务。多年来,智能体作为人工智能一个活跃的应用领域吸引人们不断地研究探索。人们越来越意识到智能体和人工智能的发展是密不可分的。最近大模型在人工智能应用领域的重大突破,更是让人们看到智能体新的发展机会;特别是像 ChatGPTGPT-4这样基于超受欢迎的Transformer架构大型语言模型 (LLMs) 改变了智能体能力的各种可能性。它们可以为智能体装备拥有广泛任务能力的大脑,从推理、规划和决策到行动都展现出智能体前所未有的能力。基于LLMs的智能体将有可能广泛深刻地影响人们生活工作的方式。因此有必要在新的背景下系统地审视智能体这个领域。

 

在接下来的”大模型时代的智能体”系列文章中,我们试图分别探讨大模型时代智能体的一些基本问题,比如,什么是智能体 (AI Agents)?为什么是大语言模型 (LLMs)?怎样打造基于LLMs的智能体? 我们也将AI工程的角度探讨基于大模型的智能体机会与挑战。本文是该系列文章第二篇,我们将探讨为什么大语言模型适合于构建智能体

 

 

 

大模型时代的智能体(II):为什么是LLMs

 

作者:鲁为民,MoPaaS 创始人和CEO

 

目录:

 

1、为什么使用大模型来构建智能体?

 

2、LLMs怎样应用于智能体?

 

3、LLMs 的涌现能力怎样影响智能体?

 

4、LLMs的幻觉等问题怎样影响智能体?

 

大模型时代的智能体 (II):为什么是LLMs?

 

 

01

为什么使用大模型来构建智能体

 

近来大模型 AI 的一个重要突破是,通过从广泛和多样化的数据集,包括大规模的语言文本数据,进行大规模学习。大模型压缩了大量世界的语义信息,让模型有能力在接触环境时真正理解环境中每一个事物是什么、发挥什么作用以及怎么利用,进而在推理时映射到用户需求并获取对应的规划和执行策略。因此人们可以通过大模型来实现功能强大的AI系统。在这种情形下,人们自然地希望基于大模型可以实现自主的智能体系统。

 

基于Transformer的大模型 AI 快速发展的主要原因一方面是因为大模型从性能上到能力上都具有明显的规模优势,另一方面这类大模型可以灵活处理语言文本之外的图像、视频、和语音等多模态数据(所以我们的讨论中,我们不区分大语言模型 (LLMs) 和 (基于Transformer的) 大模型)。特别是当模型的大小达到一定规模时,模型性能性能快速提升并涌现出一些惊人的特性和多维能力,尤其在复杂推理和多轮对话方面,也使得大模型的可以方便灵活地处理多任务。大模型的这些特性契合如前文所述的智能体的一些关键特征,包括自主性、反应性、主动性和社会性。这也解释了为什么LLMs作为关键组件适合打造可以理解、规划、执行复杂任务的智能体的可行性:

 

  • 自主性(Autonomy):智能体的自主性是指智能体在没有人类或其他实体的直接干预下运行,并对其行动和内部状态具有一定程度的控制。这意味着智能体不仅应具备遵循明确的人类指令完成任务的能力,还应具备独立发起任务并执行行动的能力。LLMs可以像人类一样通过生成文本、进行对话以及执行各种任务而展示类似的自主性。此外,它们可以根据环境输入动态调整其输出,反映出一定程度的自适应能力。这意味着LLMs可应用于智能体,使其具备一定程度的自主探索和自主决策能力。如Auto-GPT通过仅提供任务和一组可用工具,它们可以自主制定计划并执行以实现最终目标。

     

  • 响应性(Reactivity):智能体的响应性是指它能够迅速对环境的即时变化和刺激做出适当反应的能力。目前语言模型的感知空间局限于文本输入,而且行动空间限于文本输出。然而,人们已经展示了使用多模态融合技术扩展LLMs感知空间,使它们能够迅速处理来自环境的视觉和听觉信息;另外通过具身技术,也有可能扩展LLMs的行动空间。这些进展使LLMs能够有效地与现实世界的物理环境互动并在其中执行任务。

     

  • 主动性(Proactivity):智能体的主动性意味着智能体不仅仅对环境做出反应,还具备主动采取行动的能力,以展示以目标为导向的行为。这个属性强调了智能体可以通过推理制定计划,并在行动中采取积极措施,以实现特定的目标或适应环境变化。LLMs的生成能力可以展示类似的主动性,如提出新的想法、构想故事或提供问题的解决方案来展示主动原创能力。另外,LLMs中的“下一个词预测(Next-Token Prediction)”的范式也隐含着模型的一种推理过程;经验研究表明LLMs在很多任务上已经呈现一定的通用推理和规划能力。通过以“让我们一步一步思考”的方式提示LLMs,可以引发它们的推理能力,如逻辑和数学推理。类似地,LLMs已经展示了在目标重构、任务分解以及根据环境变化调整计划等方面的规划能力。

 

  • 社会性(Sociality):智能体的社会性指的是智能体通过某种智能体间通信语言与其他智能体(包括人类)互动和社交的能力。LLMs表现出强大的自然语言交互能力,如理解和生成。与结构化语言或其它通信协议相比,这种能力使它们能够以可解释的方式与其他模型或人类互动。这构成了基于LLMs的智能体社交能力的基础。研究表明基于LLMs的智能体可以通过协作和竞争等社交行为来提高任务绩效。通过输入特定的提示,LLMs还可以扮演不同的角色,从而模拟现实世界中的社会分工。此外,当将具有不同身份的多个智能体置于一个社区中时,可以观察到新兴的社会现象。

 

02

LLMs怎样应用于智能体

 

智能体(AI Agents), 顾名思义,是由AI 驱动来感知环境、规划决策和执行动作的智能实体。给定一个目标,理想的智能体就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,产生行动决策,通过自己执行或调用工具去逐步完成给定目标。

 

LLMs已经涌现出令人印象深刻的新兴能力。语言模型 (LMs) 在狭义上说是有意识沟通的模型。在给定文本上下文的情况下进行下一个单词的预测时, LMs可以推断和表达产生该上下文的作者(智能体)的信仰、愿望和意图等特征。这些特征进而影响后续的LMs生成,就像智能体的沟通意图影响他们的语言一样。因此,语言模型可以成为有意识地进行沟通和行动的系统的构建基块。

 

目前LLMs显示出比以往的AI系统更强的理解和生成能力,具有出色的推理能力,同时也可以通过代码生成逻辑调用其它工具或API来和环境交互;LLMs也提供灵活方便的自然语言接口。另外LLMs在大规模语料库上进行预训练,并展示了零样本和少样本的泛化能力,允许在任务之间灵活切换,而无需更新模型参数,使得大模型支持智能体多任务的能力。大模型特有的行为和能力,比如涌现,可以直接迁移到智能体。LLM 的能力决定智能体能力;智能体基座模型的各种能力提升(比如泛化能力,代码生成能力)也有助于提升智能体的能力。另外由于基于LLM的智能体也具备自然语言理解和生成能力,智能体间可以无缝地相互交互,从而促进多个智能体之间的协作和竞争。此外,研究表明多个智能体共存可以导致有趣的社会现象出现。

 

前文定义的智能体应用架构如图1所示,主要三个部分组成:1)用户,即智能体的使用者;2)智能体本身,它执行用户给出的指令或设定的目标;3)智能体的工作环境。

 

 

大模型时代的智能体 (II):为什么是LLMs?

1. 智能体系统架构

 

大模型应用于智能体的构建中,有下面的一些选项:

大模型本身作为智能体

 

大模型展现出色的自主性、响应性、主动性和社会性。像ChatGPT和GPT-4等大模型具有执行多任务能力,本身也具备理解,推理,规划,决策和行动能力,可以作为智能体代替人类执行处理相关的工作。特别是LLMs 提供灵活自然语言接口,便于人类方便地和LLMs交互。大模型所处环境的状态可以表现为文本、图像和语音等多模态信息。大模型本身作为感知器观测状态信息,并对自然语言或多模态状态输入的进行理解;作为记忆器提供相关知识;作为规划器结合用户给定的目标、感知状态信息以及检索的知识进行推理和规划形成行动策略;作为执行器以文本、图像和语音信息的形式输出作用于环境。LLMs还可以通过从反馈中学习和执行新的行动来获得与环境互动的能力,类似于反应性智能体。基于LLMs的智能体已经应用于各种真实场景,如软件开发和科学研究。

大模型作为智能体的组件

 

LLMs作为智能体的感知观察、记忆检索、推理规划以及行动执行单元等主要组成部分,可以有效规划执行任务。具体来说:

 

  • 大模型作为智能体的感知观察单元,其所处环境的状态信息需要以文本、图像和语音等多模态来表征,来扩展智能体的感知空间,便于大模型的感知理解;

     

  • 大模型如果作为记忆检索单元,智能体可以获取存在模型参数里的知识。通过简单的提示,可以检索相关的知识;

     

  • 大模型作为推理规划单元,LLMs可以借助“思维链” (Chain-of-Thought,CoT) ,思维树(Tree of Thoughts,ToT)、检索增强生成(RAG)、环境/人工/模型反馈等问题分析、探索、学习和求解技术让智能体拥有一定的推理和规划能力;

     

  • 大模型作为行动执行单元,LLMs还可控制智能体和环境交互,可以通过多模态感知执行和工具利用等策略来扩展它们的感知和行动空间。特别是LLMs通过制造工具、调用工具(比如通过代码执行调用APIs),或为物理工具提供智能(具身智能),可以极大地扩展智能体的能力,增强其在复杂任务中的行动能力。已经证明将LLMs与工具(如计算器、搜索引擎、翻译系统、日历,甚至其他模型的API调用)相结合,可以帮助解决LLMs单独难以应对的任务。可将程序执行器纳入了流程,可以解决涉及计算推理的子步骤,以及创建可重复使用的工具以便完成其他任务。

     

  • 另外多个LLMs也可以作为不同的子智能体形成一个更强大的智能体。

大模型作为智能体的工作环境

 

大模型本身作为环境或环境的模型,以文本、图像和语音等模态的形式来表征其状态。大模型作为智能体的工作环境对象,供其访问控制,产生所需的行为状态,获得期待的输出。通过预训练LLMs封装了广泛的世界知识,或学习了大量推理规划能力。智能体通过提示行为作用于LLMs,后者可以为智能体提供可控的知识输出供自己存储待用或输出给用户;或者LLMs生成合适的行动计划或可执行的策略来作用于其它环境或部分。比如 Voyager 的自动课程规划。

 

上述的功能的组合

 

即使智能体(或一部分)又是环境(或一部分)。

 

虽然LLMs 所展现的推理等能力是被动的方式实现,比如它需要用户的提示才会回复;但基于LLMs的智能体一般来说会积极主动思考和行动。当收到用户给出的指令和目标后,基于LLMs的智能体可以自行感知环境、形成记忆、规划和决策行动,甚至与别的智能体合作共同完成任务实现目标。

 

03

LLMs的涌现能力怎样影响智能体

 

以基于Transformer 的Next-Token Prediction自回归模型作为核心的大语言模型规模大到了一定程度后,一方面其性能和泛化能力急剧提升,使得其拥有强大的多任务处理能力,另一方面 LLMs 也涌现出很多新兴的能力,包括推理和规划,使得它们可以适用于更多没在训练目标考虑之内的任务。像GPT-4这样的 LLMs 已在各种领域和任务中展现出卓越的能力,包括抽象、理解、视觉、编程、数学、医学、法律等,并可以理解人类动机和情感等。

 

另外大模型涌现行为也催生其新的应用模式:上下文学习 (In-Context Learning)。上下文学习是通过提示 (指令实例) 输入来调整控制行为和生成答案。特别通过零样本 (Zero-Shot)、多样本 (Few-Shot)、思维链(CoT)、检索增强生成(RAG)以及思维树 (ToT) 等提示设计,可以高效地针对下游任务实现模型的适配,特别是还可以提高模型在泛化到未见任务上的鲁棒性。

 

LLMs 应用于智能体后,其涌现能力也迁移过来。特别是通过上下文提示学习的方式也可方便地为智能体所用,增强智能体的推理能力和计算能力,使得智能体的行为可控;此外通过与大模型的交互,智能体获得可以比拟人的智能,实现智能体的目标分解和规划; 当然我们也可以利用大模型涌现行为智能体提供无限的探索机会并生成各种可能的创意。下面是几个智能体涌现能力迁移的例子:

CAMEL

 

CAMEL 是一个角色扮演 (Role-Playing)的多智能体框架;智能体由 LLMs 驱动。通过针对该模型的提示设计,智能体可以分配任务、扮演角色、定义通信协议、设定终止条件以及约束避免不必要行为。而智能体通过设计启动提示 (Inception Prompt,见图2实例) 就可以实现智能体之间的自主多轮对话和协作;用户只需输入初步思路就可引导智能体间对话朝着复杂任务解决的方向发展,确保智能体的行动与用户的意图一致。

 

大模型时代的智能体 (II):为什么是LLMs?

2. CAMEL的启动提示 (Inception Prompt)

机器人Transformer RT-2

 

RT-2 是Google 开发的视觉-语言-行动(VLA)智能体模型 (见图3)。作为一个基于Transformer的大模型,RT-2是通过来自互联网的文本和图像以及收集的机器人数据进行训练,可以直接输出机器人行动动作。就像语言模型通过互联网文本的训练来学习一般的思想和概念一样,RT-2也通过互联网数据传递知识,以影响机器人的行为。RT-2展示了出色的泛化能力以及对其所接触到的机器人数据之外的语义和视觉理解。这包括解释新命令并通过执行基本推理来响应用户命令,比如对物体类别或高层描述进行推理。特别是通过引入思维链 (CoT) 的提示推理,RT-2可以进行多阶段的语义推理,比如决定哪种对象可以用作临时的锤子(一块石头),或者哪种类型的饮料对疲倦的人最合适(能量饮料)。

 

大模型时代的智能体 (II):为什么是LLMs?

3. Google 的机器人Transformer 模型:RT-2

 

斯坦福小村 (Smallvile)

 

Smallvile是斯坦福的大学研究人员建立的一个虚拟社区 (图4),由 25 个不同智能体组成。通过和环境的交互,实现其个体的目标。研究人员观察到实验中智能体涌现一些行为;这些行为都不是预先编程的,而是由智能体之间的互动产生的,包括:

 

  • 信息扩散智能体相互告诉对方信息,并让其在城镇中进行社交传播;

 

  • 关系记忆: 记忆智能体之间过去的互动,并在以后提到这些早期事件;

     

  • 规划协调:与其他智能体一起计划并参加情人节派对。

 

大模型时代的智能体 (II):为什么是LLMs?

4. 斯坦福小村 (Smallvile)

VOYAGER

 

英伟达发布的VOYAGER 是一个大模型驱动,可以终身学习的游戏智能体。它用全网数据去训练一个大语言模型(LLM)学习世界知识,推理和工具使用(编码),涌现出具有与人类玩家类似的能力:

 

  • 根据其当前的技能水平和世界状态提出合适的任务,例如,如果它发现自己处于沙漠而不是森林,就会在打铁前学会获取沙子和仙人掌;

     

  • 根据环境反馈完善技能,并将掌握的技能存入记忆,以便将来在类似情况下重复使用(例如,打僵尸与打蜘蛛类似);

     

  • 不断探索世界,以自驱动的方式寻找新任务。

 

 

04

LLMs的幻觉等问题怎样影响智能体?

LLMs的幻觉行为 (Hallucination)

 

虽然基于LLMs的智能体的目前展示了许多有前途的方向,但这个领域仍处于初级阶段,发展过程中面临许多挑战。其中比较引人关注的是LLM的幻觉问题。LLMs的幻觉体现为“一本正经胡说八道”,自信地错误地输出虚假信息,包括:

 

  • 不表达不确定性;

     

  • 不挑战用户提示的前提;

     

  • 杜撰答案或说谎;

     

  • 使得看似可信的答案包含错误信息等。

     

幻觉 (Hallucination) 影响到 LLMs输出结果的精确度和实事性,对LLMs的广泛应用构成了严重的挑战。

?LLMs为什么会产生

 

LLM的幻觉行为很大程度上是由于语言模型本身的特点决定,可能由于下面的一些因素产生:

 

  • 由于语言模型中预测下一个Token是由损失函数导出的概率分布来决定,存在一定的近似和不确定性,答案有可能产生误差甚至错误。所以LLMs在数学,推理和编程这类对精确度和确定性有严格要求的任务更有可能出现幻觉问题;比如即使使用GPT-4 加上思维树 (ToT) 都不能求解 Game of 24问题。

     

  • 另外很多LLMs只能给用户提供有限长度的 Context 窗口,让LLMs不具备基本的长期记忆能力,使得存在于用户历史中的知识和实事有可能被LLMs丢失和忽略;特别是当智能体的决策的时间跨度变长时,其输出结果会大概率产生事实性错误。

     

  • 模型在训练时压缩了大量世界的语义信息 (比如图5的示意),让模型有能力在接触环境时真正理解环境中每一个事物是什么、发挥什么作用以及怎么利用,进而在推理时试图映射到用户的请求。如果答案不在训练数据集内或者没被语言模型捕捉到,语言模型也会猜测一个错的答案,并产生错误的规划和执行策略,从而可能会导致幻觉。

     

 

大模型时代的智能体 (II):为什么是LLMs?

5. LLM知识图谱存储在神经网络中 

(John Schulman, 2023)

 

  • 研究表明,幻觉更容易产生在LLMs考虑问题的长尾区域,不论是从事的任务,数据输入,还是目标输出。而这些问题区域往往是有效实现智能体规划、推理和执行难以避免的。

LLM的幻觉对智能体的影响

 

一般来说,LLMs 的幻觉行为也会迁移到智能体,也很可能影响其实现目标,比如基于LLMs的智能体很可能:

 

  • 提供错误信息;

     

  • 提出无法完成的任务;

     

  • 调用无效或低效的工具;

     

  • 错误使用工具或使用错误工具;

     

  • 调用不存在的功能;

     

  • 代码调用所提供的控制原始 API 中没有的函数,导致代码执行错误;

     

  • 生成不正确或误导性的代码 …

     

因为LLM 的幻觉行为所导致的这些问题可能使得智能体的行为和结果输出缺乏必要的可控性、稳定性和鲁棒性。对于抽象复杂的问题多步推理能力不够;智能体的规划容易产生死循环;或者会一步走错,步步走错;自我意识缺乏使得扮演的角色认知丢失。

 

 

大模型目前虽然还不完美,可能存在幻觉等各种问题,还可能无法可靠地用于长期规划、多步推理和复杂任务执行,但仍然在一些场景呈现出了AI模型前所未有的广泛能力,这也给打造更强大的智能体带来多种可能性。

 

在系列的下一篇文章中我们将讨论:大模型时代的智能体 (III):怎样打造基于LLMs的智能体?

 

大模型时代的智能体 (II):为什么是LLMs?

想要了解更多,欢迎入群交流!

权益福利:

1、AI 行业、生态和政策等前沿资讯解析;

2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流(社群邀请人数已达上限,可先加小编微信:15937102830)

 

大模型时代的智能体 (II):为什么是LLMs?

关于MoPaaS魔泊云

源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务;特别是针对企业应用场景,提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。

 

大模型时代的智能体 (II):为什么是LLMs?

  END  

 

▼ 往期精选 ▼

 

1、大语言模型时代的智能体 (I):什么是智能体?

 

2、快捷高效| 通过 MoPaaS AI 平台完成 YOLOv5 训练

 

3、掀起人工智能新浪潮的OpenAI,看上了ChatGPT之外另一条赛道

 

4、如何构建企业级大模型应用:GitHub Copilot的经验教训

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy