浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

Wenqi Zhang 投稿
量子位 | 公众号 QbitAI

基于大模型的Agent，已经成为了大型的博弈游戏的高级玩家，而且玩的还是德州扑克、21点这种非完美信息博弈。

来自浙江大学、中科院软件所等机构的研究人员提出了新的Agent进化策略，从而打造了一款会玩德州扑克的“狡猾”智能体Agent-Pro。

通过不断优化自我构建的世界模型和行为策略，Agent-Pro掌握了虚张声势、主动放弃等人类高阶游戏策略。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

Agent-Pro以大模型为基座，通过自我优化的Prompt来建模游戏世界模型和行为策略。

相比传统的Agent框架，Agent-Pro能够变通地应对复杂的动态的环境，而不是仅专注于特定任务。

而且，Agent-Pro还可以通过与环境互动来优化自己的行为，从而更好地达成人类设定的目标。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

同时作者还指出，在竞争、公司谈判和安全等现实世界中遇到的情景，大多可以抽象为multi-agent博弈任务，而Agent-Pro通过对这类情境的研究，为解决众多现实世界的问题提供了有效策略。

那么，Agent-Pro在博弈游戏中的表现究竟如何呢？

进化出游戏世界模型

在研究中，作者使用了“21点”和“有限注德州扑克”这两款游戏对Agent进行了评估。

首先简要介绍下两个博弈游戏的基本规则。

21点

游戏中包含一个庄家和至少一名玩家。
玩家可以看到自己的两张手牌, 以及庄家的一张明牌，庄家还隐藏了一张暗牌。玩家需要决定是继续要牌（Hit）还是停牌（Stand）。
游戏的目标是在总点数不超过21点的前提下，尽量使总点数超过庄家。

有限注德州扑克

游戏开始阶段为Preflop阶段，每位玩家将获得两张只属于自己且对其他玩家保密的私牌（Hand）。
随后，会有五张公共牌面(Public Cards)依次发出：首先翻牌（Flop）3 张，其次转牌（Turn）1张，最后是河牌(River）1张。
玩家有四种选择：弃牌（fold）、过牌（check）、跟注（call）或加注（raise）。
目标是利用自己的两张Hand和五张Public Cards任意组合，尽可能构造出最佳的五张扑克牌组合。

在“21点”当中，同样是使用GPT-4作为基础模型，Agent-Pro的表现超过了ReAct框架。

在手牌相同的情况下，二者的表现如下图所示。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

Agent-Pro通过分析得出自我信念（Self-Belief）和对外部世界的信念（World-Belief），正确认识到自己的手牌已接近21点，合理的选择了停牌。

而ReAct则未能及时停牌，导致最终爆牌，输掉了游戏。

从游戏中能够看出Agent-Pro更好的理解了游戏的规则，并给出了合理的选择。

接下来再看看在德州扑克中Agent-Pro的表现。

一次牌局中，参赛选手分别是训练后的DQN、DMC策略，原生GPT3.5和Agent-Pro（基于GPT-4），他们的手牌和公共牌如下图所示：

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

△S、H、C、D分别代表黑桃、红桃、梅花、方块

在当前游戏状态（Current game state）下，Agent-Pro分析得出Self-Belief、World-Belief和最终的Action，并随着游戏状态的变化，不断更新Belief，根据自身和对手的情况，做出灵活合理的选择。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

△相同牌局同一位置的Baseline（原始大模型）结果为-13

统计数据上看，21点游戏中，在使用GPT、Llama等多种大模型的情况下，Agent-Pro的表现都显著超过了原始模型和其他参与对比的Agents框架。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

在更为复杂的德州扑克游戏中，Agent-Pro不仅超过了原始大模型，还击败了DMC等训练后的强化学习Agent。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

那么，Agent-Pro是如何学习和进化的呢？

三管齐下提高Agent表现

Agent-Pro包括“基于信念的决策”“策略层面的反思”和“世界模型和行为策略优化”这三个组件。

基于信念的决策（Belief-aware Decision-making）

Agent-Pro根据环境信息，首先形成Self-Belief和World-Belief，然后基于这些Belief做出决策（Action）。

在后续环境交互中，Agent-Pro动态更新Belief，进而使做出的Action适应环境的变化。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

例如，德州扑克游戏中：

环境信息可包括手牌（Private State）、公共牌（Public State）、行动轨迹（Trajectory）等；
Agent-Pro对手牌（State）、出牌计划（Plan）及潜在风险（Risk）的预估等信息构成了它的Self-Belief；
而Agent-Pro对对手（Opponent）、环境（Environment）和规则（Rule）的理解则构成了它的World-Belief；
这些Belief在每一个决策周期中都会被更新，从而影响下个周期中Action的产生

策略层面的反思（Policy-Level Reflection)

与人类一样，Agent-Pro 会从历史经验、历史认知和历史结果中进行反思和优化。它自主调整自己的Belief，寻找有用的提示指令，并将其整合到新的策略Policy中。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

首先，Agent-Pro以文字的形式设计了一个对任务世界的建模以及对行为准则的描述，他们一起被当做Policy：

World Modeling：任务世界的建模，例如对游戏环境的理解、对手们的风格分析、环境中其他Agent的策略估计等；
Behavioral Guideline：行为准则的描述，例如对游戏目标的认识、自己策略规划、未来可能面临的风险等

其次，为了更新World Modeling和Behavioral Guideline，Agent-Pro设计了一个Policy-level Reflection过程。

与Action-level Reflection不同，在Policy-level的反思中，Agent-Pro被引导去关注内在和外在信念是否对齐最终结果，更重要的是，反思背后的世界模型是否准确，行为准则是否合理，而非针对单个Action。

例如，德州扑克游戏中Policy-level的反思是这样的：

在当前世界模型和行为准则(World Modeling & Behavioral Guideline)的指导下，Agent-Pro观察到外部状态，然后生成Self-Belief和World-Belief，最后做出Action。但如果Belief不准确，则可能导致不合逻辑的行动和最终结果的失败；
Agent-Pro根据每一次的游戏来审视Belief的合理性，并反思导致最终失败的原因（Correct，Consistent，Rationality…）；
然后，Agent-Pro将反思和对自身及外部世界的分析整理，生成新的行为准则Behavioral Guideline和世界建模World Modeling；
基于新生成的Policy（World Modeling & Behavioral Guideline），Agent-Pro重复进行相同游戏，来进行策略验证。如果最终分数有所提高，则将更新后的World Modeling & Behavioral Guideline和保留在提示中。

世界模型和行为准则的优化（World Modeling & Behavioral Guideline Evolution）

在Policy-level Reflection之上，面对动态的环境，Agent-Pro还采用了深度优先搜索（DFS）和策略评估，来持续优化世界模型和行为准则，从而找到更优的策略。

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

策略评估是指Agent-Pro 在新的采样的轨迹中对新Policy进行更全面的评估，从而考察新策略的泛化能力。例如，德州扑克游戏中，新采样多条游戏轨迹。

通过交换玩家位置或手牌，来消除由于运气带来的随机因素，从而更全面评估新策略的能力。

而DFS搜索则在新策略不能在新的场景中带来预期的改进（策略评估）时使用，按照DFS搜索策略，从其他候选策略中寻找更优的策略。

论文地址：
https://arxiv.org/abs/2402.17574
Github:
https://github.com/zwq2018/Agent-Pro

— 完 —

报名中！

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项，欢迎报名评选！

评选报名截至2024年3月31日

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

中国AIGC产业峰会同步火热筹备中，了解更多请戳：Sora时代，我们该如何关注新应用？一切尽在中国AIGC产业峰会

商务合作请联络微信：18600164356 徐峰

活动合作请联络微信：18801103170 王琳玉

点这里👇关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

2024 年 3 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

Wenqi Zhang 投稿
量子位 | 公众号 QbitAI

进化出游戏世界模型

21点

有限注德州扑克

△S、H、C、D分别代表黑桃、红桃、梅花、方块

△相同牌局同一位置的Baseline（原始大模型）结果为-13

三管齐下提高Agent表现

基于信念的决策（Belief-aware Decision-making）

策略层面的反思（Policy-Level Reflection)

世界模型和行为准则的优化（World Modeling & Behavioral Guideline Evolution）

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

Wenqi Zhang 投稿量子位 | 公众号 QbitAI

进化出游戏世界模型

21点

有限注德州扑克

△S、H、C、D分别代表黑桃、红桃、梅花、方块

△相同牌局同一位置的Baseline（原始大模型）结果为-13

三管齐下提高Agent表现

基于信念的决策（Belief-aware Decision-making）

策略层面的反思（Policy-Level Reflection)

世界模型和行为准则的优化（World Modeling & Behavioral Guideline Evolution）

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

Wenqi Zhang 投稿
量子位 | 公众号 QbitAI