伯克利提出 MACHIAVELLI 基准:衡量大模型代理奖励与道德行为之间的权衡

840次阅读
没有评论

本文构建了MACHIAVELI,这是一套134款基于文本的Choose Your Own Adventure游戏,用于评估人工智能代理的能力和安全性。

标题:Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark

作者:Alexander PanChan Jun ShernAndy ZouNathaniel LiSteven BasartThomas WoodsideJonathan NgHanlin ZhangScott EmmonsDan Hendrycks

简介:

人工代理传统上接受过最大化奖励的训练,这可能会激励权力寻求和欺骗,类似于语言模型 (LM) 中的下一个标记预测可能会激励毒性。那么代理人会自然而然地学会权谋吗?我们如何在 GPT-4 等通用模型中衡量这些行为?

为了回答这些问题,我们介绍了 MACHIAVELLI,这是 134 款自选冒险游戏的基准,包含超过 50 万种以社会决策为中心的丰富多样的场景。场景标记是使用 LM 自动进行的,LM 比人工注释器的性能更高。我们对数十种有害行为进行数学化处理,并使用我们的注释来评估代理人追求权力、造成负效用和违反道德规范的倾向。我们观察到最大化奖励和道德行为之间存在一些紧张关系。为了改善这种权衡,我们研究了基于 LM 的方法来引导代理人做出危害较小的行为。我们的结果表明,代理人既可以胜任又可以道德地行事,因此目前可以在机器伦理方面取得具体进展——设计在安全性和能力方面都具有帕累托改进的代理人。

https://arxiv.org/pdf/2304.03279.pdf

伯克利提出 MACHIAVELLI 基准:衡量大模型代理奖励与道德行为之间的权衡

伯克利提出 MACHIAVELLI 基准:衡量大模型代理奖励与道德行为之间的权衡

伯克利提出 MACHIAVELLI 基准:衡量大模型代理奖励与道德行为之间的权衡

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy