NeurIPS 2023 | 认知层级下的群体动作预测

关键词：认知层级；动作预测

导读

本文是对发表于人工智能领域顶级会议 NeurIPS 2023 的论文 Social Motion Prediction with Cognitive Hierarchies 的解读。该论文由北京大学计算机视觉与数字艺术（CVDA）课题组在王亦洲教授指导下完成，共同第一作者为计算机学院博士生朱文韬和信息科学技术学院本科生秦杰圣。

人类具有卓越的“预测他人动作并据此规划自身行动”的能力，而这项研究工作试图学习这种能力并应用于群体动作预测问题。这个工作提出了一个新的数据集、一个新的建模角度，以及一个基于认知模型的计算框架。作者构建了一个真实世界群体动作三维数据集，其中包括了激烈且策略性的人类互动以及多样的姿态分布，给这个研究领域带来全新的挑战。此外，通过从多智能体强化学习的角度重新定义问题，作者结合行为克隆、生成对抗模仿学习设计了一个认知层级框架来预测策略性的人类社交互动。

论文链接：

https://arxiv.org/pdf/2311.04726.pdf

开源代码：

https://github.com/Walter0807/Social-CH

项目主页：

https://walter0807.github.io/Social-CH/

视频介绍：

https://www.youtube.com/watch?v=pVBICYpGhyU

背景介绍

在社交环境中，人类会下意识地预测他人的行为，并据此开展自己的行为决策。这种能力使得个体能够在各种场景中与他人合作或竞争，从行人交通到团队运动等。为了更好地理解和模仿这种能力，研究者们提出了预测多智能体未来行为的任务。大部分先前的工作主要集中在对象轨迹层面的互动建模和预测，在自动驾驶等应用中取得了显著的成果。然而，基于轨迹的方法只能反映粗粒度的互动（例如避免碰撞、保持社交距离等），并未捕捉到丰富的人类动作细节。为此，一些研究开始探讨群体动作预测问题，即同时预测多人的未来轨迹和姿态[1,2]。

尽管取得了一些进展，但这个领域仍面临一些关键挑战。首先，现有的多人动作数据集[3,4]主要是为人体姿态估计任务而收集的，因此并未特别强调群体间的互动行为。在这些数据集中，个体往往随意移动并随机与他人互动，这使得预测未来行为变得困难且意义不大。其次，大多数先前的方法主要关注神经网络结构的设计，而忽视了人类社交行动规划中的认知模型。这两个挑战紧密相关，需要一个综合解决方案。

“五四”篮球训练数据集

我们首先构建了一个大型多人3D运动数据集，其中参与者之间存在着激烈和策略性的互动。我们将目光投向了团队运动，因为它们具有以下几个特点：

1. 明确的比赛规则和奖励机制隐式地约束和指导个人的行为动作。

2. 参与者根据自己的角色制定复杂的互动策略，例如与队友合作并对抗对手。优秀的运动员甚至会使用欺骗等复杂技巧。

3. 人类动作在姿态多样性和动态性上往往更复杂，使得动作预测比以前的数据集更具挑战性。

NeurIPS 2023 | 认知层级下的群体动作预测

图1. “五四”数据集中的内容示例。三名紫色球员组成进攻队伍，而两名橙色球员则组成防守队伍。在左侧，进攻球员成功将球传给队友。在中间，防守球员准确地预测传球轨迹并成功抢断球。在右侧，进攻球员假装向右传球，然后迅速向左传球。

我们的数据集记录了一组高水平篮球运动队员进行无运球3对2的篮球训练。在每个训练中，三名进攻球员持球，而另外两名球员负责防守。进攻团队的目标是在规定的时间内完成尽可能多的成功传球，而防守团队则努力抢断、干扰进攻并减缓进攻速度。由于禁止运球，这个训练要求进攻球员在传球之前做出更好的决策并预判防守情况；相反，防守球员需要预判传球方向以抢断球。

图1展示了我们数据集中多样且动态的人际互动。在接下来的例子中，我们用冷色（紫色、青色和蓝色）表示进攻球员，用暖色（橙色和棕色）表示防守球员。

NeurIPS 2023 | 认知层级下的群体动作预测

图2. “五四”数据集具有姿态多样、运动激烈、策略交互强等特点。

此外，我们还对“五四”数据集在姿态多样性、运动动态性等方面进行了定量分析，结果显示其比先前广泛使用的数据集[3,4]更具挑战性。

方法概览

NeurIPS 2023 | 认知层级下的群体动作预测

图3. 人们隐式地预测他人可能的行为，并针对性地规划他们自己的行动。同时，其他人从他们的角度也进行类似的决策过程。通过递归地考虑这些推理步骤，我们可以得到一个层级化的认知结构。

我们将群体运动预测任务建模为一个使用模仿学习从专家演示中学习策略的多智能体强化学习（MARL）问题。具体来说，我们使用行为克隆（BC）[5]来模仿数据集中的专家行为。为了提高学习效率和泛化能力，我们使用生成对抗模仿学习（GAIL）[6]，试图使智能体的策略与专家的策略无法区分。此外，我们提出了一个基于认知层级理论[7]的人类动作决策框架。如图3所示，我们假设人们基于他们对自己和他人可能采取的行动的预测做出决策，而他人则从他们的角度进行类似的决策过程。通过递归地考虑推理步骤，我们可以得到第 k 层的智能体采取基于第 k-1 层的智能体的行动，其中 k 代表策略思维的深度。

NeurIPS 2023 | 认知层级下的群体动作预测

图4. 框架概览。第k层智能体的策略网络根据第k-1层智能体的联合动作与该智能体的局部状态产生第k层的动作。

基于这些观察，我们提出了一个能够将认知层级与 MARL 有机结合的计算模型（如图4所示）。

实验结果

NeurIPS 2023 | 认知层级下的群体动作预测

表1. 和基线方法的定量对比。

如表1所示，本文提出的方法在“五四”数据集上普遍超过了此前的方法，特别是在具有挑战性的长期动作预测上。接下来，我们展示一些模型的预测结果（我们用绿色表示输入的动作历史）：

NeurIPS 2023 | 认知层级下的群体动作预测

图5. 预测结果（示例1）。

NeurIPS 2023 | 认知层级下的群体动作预测

图6. 预测结果（示例2）。

可以看到，我们的方法能够学到传球、抢断、轮转补防等丰富的交互动作。此外，我们通过可视化中间策略网络生成的动作来理解决策过程中的认知层级：

NeurIPS 2023 | 认知层级下的群体动作预测

图7. 认知层级可视化（示例1）。

[Level-1] 小紫传球给小蓝。

[Level-2] 小棕于是进行抢断动作，在小蓝和小青之间造成了防守漏洞。

[Level-3] 因此，小橙转身插入小蓝和小青之间的空隙，填补了这个空缺。这个预测更接近数据集的真实情况。

NeurIPS 2023 | 认知层级下的群体动作预测

图8. 认知层级可视化（示例2）。

[Level-1] 小紫接球并传球。

[Level-2] 所以，作为防守者的小橙靠近小紫进行防守，而他的队友小棕也转向小紫。

[Level-3] 有鉴于此，小橙选择了不同的动作，转向小青。这一动作也更接近真实情况。

从这两个例子中可以看出我们基于认知层级的模型可以迭代地优化动作预测，不仅产生准确的最终预测，而且还给出了可解释的认知决策过程。

总结

1. 我们提出第一个具有激烈的策略性互动的多人3D运动数据集“五四”，为群体动作预测问题带来了新的挑战。

2. 我们提出了一种新颖的多智能体强化学习问题建模，并开发了一种结合行为克隆和生成对抗性模仿学习的模仿学习方法。

3. 我们设计了一个认知层级结构框架来建模和预测策略性的群体交互，并超过了此前的方法。

视频介绍：

参考文献

[1] Jiashun Wang, Huazhe Xu, Medhini Narasimhan, and Xiaolong Wang. Multi-person 3d motion prediction with multi-range transformers. Advances in Neural Information Processing Systems, 34:6036–6049, 2021.

[2] Sirui Xu, Yu-Xiong Wang, and Liangyan Gui. Stochastic multi-person 3d motion forecasting. In The Eleventh International Conference on Learning Representations, 2023.

[3] Cmu graphics lab motion capture database.

[4] Dushyant Mehta, Oleksandr Sotnychenko, Franziska Mueller, Weipeng Xu, Srinath Sridhar, Gerard PonsMoll, and Christian Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 3DV, 2018.

[5] Michael Bain and Claude Sommut. A framework for behavioural cloning. Machine intelligence, 15(15):103, 1999.

[6] Jonathan Ho and Stefano Ermon. Generative adversarial imitation learning. In Advances in neural information processing systems, pages 4565–4573, 2016.

[7] Colin F Camerer, Teck-Hua Ho, and Juin-Kuan Chong. A cognitive hierarchy model of games. The Quarterly Journal of Economics, 119(3):861–898, 2004.

NeurIPS 2023 | 认知层级下的群体动作预测

图文 | 朱文韬

Computer Vision and Digital Art (CVDA)

About CVDA

The Computer Vision and Digital Art (CVDA) research group was founded in 2007 within the National Engineering Laboratory for Video Technology at Peking University led be Prof. Yizhou Wang. The group focuses on developing computational theories and models to solve challenging computer vision problems in light of biologically plausible evidences of visual perception and cognition. The primary goal of CVDA is to establish a mathematical foundation of understanding the computational aspect of the robust and efficient mechanisms of human visual perception, cognition, learning and even more. We also believe that the marriage of science and art will stimulate exciting inspirations on producing creative expressions of visual patterns.

CVDA近期科研动态

NeurIPS 2023 | 认知层级下的群体动作预测

本微信公众号所有内容，由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料，版权属北京大学前沿计算研究中心微信所有；从公开渠道收集、整理及授权转载的文字、图片和音视频资料，版权属原作者。本公众号内容原作者如不愿意在本号刊登内容，请及时通知本号，予以删除。

NeurIPS 2023 | 认知层级下的群体动作预测

点击“阅读原文”转论文地址

2023 年 11 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

NeurIPS 2023 | 认知层级下的群体动作预测

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光