Do LMs Represent Space and Time?
大语言模型能否学会时间和空间综述
论文链接:
最近的一篇论文显示,Llama语言模型可以学习时间和空间的线性表示。
通过在实体名称的最后一个词的隐状态上训练线性探针,可以预测出实体的坐标或死亡年份。这说明模型学习了一个与地点实际位置较为一致的空间表示。
早期的word2vec等模型已经展示了地理关系的编码,所以这一发现并不令人惊讶。已有一系列研究专注于向模型注入和分析地理知识,LLM可以作为地理信息系统使用。LLM对细粒度空间关系的编码还有待进一步研究,目前案例研究显示LLM对某些空间关系有认知。
在时间编码方面,除了合成任务,实际应用也很重要。要确保模型反映最新信息。空间和时间的表达跨语言和文化存在差异。这方面的跨文化评估数据集还不够。
相关论文:
Language Models Represent Space and Time
大语言模型 (LLM) 涌现的能力引发了人们的争论:这类系统只是学习了大量表面统计数据还是学习了数据生成过程的连贯模型(世界模型)。本文作者通过分析 Llama-2 系列模型中三个空间数据集(世界、美国、纽约地区)和三个时间数据集(历史人物、艺术品、新闻标题)的学习表征,找到了支持世界模型假设的证据。本文结果发现 LLM 可以学习跨多个尺度的空间和时间的线性表征。这些表征对于提示变化是稳健的,并且在不同实体类型(例如城市和地标)之间是统一的。此外,本文还确定了可靠编码空间和时间坐标的单个「空间神经元」和「时间神经元」。本文分析表明,LLM 获得了有关空间和时间等基本维度的结构化知识,同时支持了这样的观点:LLM 不仅学习表面的统计数据,而且学习真实的世界模型。
https://arxiv.org/abs/2310.02207