Nature速递：动态行为重组介导大脑中多巴胺的奖励分配

关键词：强化学习，奖励分配问题，学习机制

论文题目：Dynamic behaviour restructuring mediates dopamine-dependent credit assignment论文来源：Nature论文地址：https://www.nature.com/articles/s41586-023-06941-5
想象一下，你正在教一只狗玩捡球游戏。你扔出一个球，你的狗在后面冲刺，捡起球，然后跑回来。然后，你用食物奖励气喘吁吁的小狗。但现在对你的狗狗来说，真正的诀窍来了：找出是哪个环节获得了奖赏。科学家将此称为大脑中的“奖励分配问题”（credit assignment）。
动物在探索新环境时会表现出多种多样的行为，并能学会哪些行为或行为序列能产生积极的结果。遇到奖励时释放多巴胺对于强化产生奖励的行为至关重要。然而，要了解在连续行为中如何为产生多巴胺释放的确切动作分配奖励一直是个挑战。本文采用一种新的自我刺激范式（self-stimulation paradigm）研究了这一问题，其中特定的自发动作会触发多巴胺能神经元的光遗传刺激。多巴胺自我刺激能迅速、动态地改变整个行为的结构。
最初的刺激不仅强化了刺激产生的目标动作，还强化了与目标动作相似的动作和刺激前几秒钟发生的动作。重复配对使行为逐步完善，从而锁定目标。对动作序列的强化进一步揭示了细化的时间依赖性。自发相隔较长一段时间的动作配对促进了逐步的奖励分配，其中最接近刺激的动作在早期得到完善，而较远的动作则在随后得到完善。多巴胺不仅能发出奖励信号，还能对一系列行为进行微调，随着时间的推移，这些行为会变得更加集中和精确。
因此，回溯强化机制不仅能促进强化，还能逐步完善整个行为，从而为导致多巴胺释放的特定动作和动作序列的奖励分配。这项研究对教育和人工智能等领域具有重要意义，让人们深入了解大脑错综复杂的学习机制。
这一发现可能会影响教育和人工智能（AI）等多个领域，例如，在课堂上允许探索、犯错和逐步完善可能更符合我们大脑与生俱来的学习过程。在人工智能领域，这些见解可能会带来更复杂、更高效的学习系统。通过更好地复制生物学习过程，我们可以创造出更善于适应新数据和新情况的人工智能。

编译｜郭瑞东

神经动力学模型读书会

详情请见：

500+神经动力学社区成员，邀你共同点亮更多脑科学研究的岛屿

点击“阅读原文”，报名读书会

2023 年 12 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

Nature速递：动态行为重组介导大脑中多巴胺的奖励分配

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了