Max Tegmark 组:大模型学习到时间和空间的结构化知识

581次阅读
没有评论

Max Tegmark 组:大模型学习到时间和空间的结构化知识


关键词:大语言模型,世界模型,空间神经元,时间神经元


Max Tegmark 组:大模型学习到时间和空间的结构化知识


Max Tegmark 组:大模型学习到时间和空间的结构化知识

论文题目:Language Models Represent Space and Time论文地址:https://arxiv.org/abs/2310.02207
尽管现代大语言模型只是被训练来预测下一个标识(token),但它已经展示出一系列令人印象深刻的能力,这引发了人们对这些模型实际学到了什么的质疑和担忧。一种假设是,大语言模型学习了大量的相关性,但是在只进行文本训练的情况下,缺乏连贯的模型(coherent model)或对背后的(underlying)数据生成过程的“理解”。另一种假设是,大语言模型在压缩数据的过程中,学习了训练数据背后的生成过程的更紧凑、连贯和可解释的模型,即世界模型。
Max Tegmark 组:大模型学习到时间和空间的结构化知识Max Tegmark 组:大模型学习到时间和空间的结构化知识图1:Llama-2-70b的空间和时间世界模型。
在这项工作中,作者试图回答大语言模型是否形成了世界(和时间)模型的问题——他们试图提取一张真实的世界地图!作者通过分析Llama-2模型家族中三个空间数据集(世界、美国、纽约市)和三个时间数据集(过去3000年历史人物的死亡年份、20世纪50年代以后艺术和娱乐的发布日期、2010年至2020年新闻头条的发布日期)的学习表示,找到了上述第二个假设的证据。作者发现,大语言模型学到了横跨多个时空尺度的空间和时间的线性表示。这些表示对提示的变化是鲁棒的,并且在不同实体类型(例如城市和地标)之间是统一的。
Max Tegmark 组:大模型学习到时间和空间的结构化知识图2:在每个模型、数据集和层上训练的用于线性探测的样本R2
Max Tegmark 组:大模型学习到时间和空间的结构化知识图3:当实体名称包含在Llama-2-70b的不同提示中时的样本R2
此外,作者还识别到了单个的“空间神经元”和“时间神经元”,他们可靠地编码了空间和时间坐标。这些分析表明,现代大语言模型获得了关于空间和时间等基本维度的结构化知识,这支持了大语言模型不仅学习表层的统计数据,也学习世界模型。

Max Tegmark 组:大模型学习到时间和空间的结构化知识图4:Llama-2模型中的空间和时间神经元。

编译|黄泽豪

AI+Science 读书会


Max Tegmark 组:大模型学习到时间和空间的结构化知识
详情请见:人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动



推荐阅读

1. AI 为什么会有创造力?范畴论刻画大模型创造力的来源2. 大模型的能力边界在哪里?来自范畴论视角的答案3. 探索“AI 大统一理论”:科学启发的机器学习理论4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5成为集智VIP,解锁全站课程/读书会6. 加入集智,一起复杂!

点击“阅读原文”,报名读书会

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy