顽固：一个用于评估具有共同利益的代理之间顽固性的环境

Stubborn: An Environment for Evaluating Stubbornness between Agents with
Aligned Incentives

解决问题：
该论文旨在研究完全合作环境下的多智能体强化学习中的“顽固性”，并提出了一种度量智能体之间“顽固性”的方法。该论文的目的是推动对智能体的顽固性倾向、对手智能体的反应以及由此产生的社交动态的研究。

关键思路：
该论文提出了一种度量智能体顽固性的方法，并提出了一个用于评估智能体顽固性的环境——Stubborn。该环境允许智能体进行完全合作，但并不保证智能体之间的合作。该论文的新思路在于，它提出了一个新的研究方向，即在完全合作的情况下探讨智能体之间的顽固性。

其他亮点：
该论文的实验结果表明，智能体可以使用他们伙伴的顽固性作为信号来改善他们在环境中的选择。该论文还提供了一个新的环境——Stubborn，供其他研究者使用。该论文的代码已经开源，可以在GitHub上找到。

关于作者：
Ram Rachum、Yonatan Nakar和Reuth Mirsky是该论文的主要作者。他们分别来自以色列理工学院、以色列航空工业公司和以色列国防部。Ram Rachum是一位资深的Python 程序员，他还撰写了一本关于Python的书。Yonatan Nakar是一位计算机科学家，他的研究方向包括机器学习、计算机视觉和智能体。Reuth Mirsky是一位研究人员，他的研究方向包括机器学习和智能体。

相关研究：
最近的研究表明，在多智能体强化学习中，学习社交行为和合作是成功的。其他相关研究包括：

“Multi-Agent Reinforcement Learning in Sequential Social Dilemmas”，作者为Ryan Lowe、Yi Wu、Abhishek Gupta等，发表于ICML 2017。
“Emergent Complexity via Multi-Agent Competition”，作者为Jakob Foerster、Nando de Freitas等，发表于ICLR 2018。
“Cooperative Multi-Agent Reinforcement Learning with Observational Discrimination”，作者为Yi Wu、Joshua Romoff等，发表于AAAI 2019。

论文摘要：本文介绍了一个名为Stubborn的环境，用于评估完全协作设置下代理之间的顽固程度。最近的多智能体强化学习(MARL)研究表明，学习社会行为和合作是成功的。混合和博弈中代理之间的社会困境已经得到广泛研究，但是在完全协作的情况下，代理之间的社会困境研究很少，因为代理之间没有可能在另一个代理的代价上获得奖励。虽然完全一致的利益有助于代理之间的合作，但并不保证它。我们提出了一种代理之间的”顽固度”的度量方式，旨在捕捉人类社会行为的特征：逐渐升级和潜在灾难性的分歧。我们希望促进对代理倾向于固执的研究，对对方代理的反应以及由此产生的社会动态的研究。在本文中，我们介绍了Stubborn，这是一个用于评估完全一致激励下代理之间顽固程度的环境。在我们的初步结果中，代理学会将其伙伴的顽固作为信号，以改进他们在环境中的选择。

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

顽固：一个用于评估具有共同利益的代理之间顽固性的环境

魅族AI眼镜1999元起售：拍照翻译付款全都会，39g重

每周7亿人都在如何用ChatGPT？OpenAI最全报告来了

DeepSeek V3.1更新「最终版」！下一次是V4/R2了？？？

全球首个Agent交易市场MuleRun（骡子快跑）正式上线，创作者最高可得1万美元现金激励

一文看尽35万人围观的智博会

啥？陶哲轩18个月没搞定的数学挑战，被这个“AI高斯”三周完成了

Meta超级智能实验室新论文陷争议！被指忽略大量前人研究

姚顺雨离职OpenAI，开启下半场

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

AI解数学题只靠最后一个token