在本文中,提出了XTR,即ConteXtualized Token Retriever,它通过改进初始令牌检索阶段来简化现有的多向量模型的三阶段推理。具体而言,XTR仅根据检索到的令牌对文档进行评分,这在使用批处理文档令牌进行训练期间也得到了优化。因此,XTR在零样本信息检索基准上实现了最先进的性能,同时大大降低了评分阶段的FLOP。
标题:Rethinking the Role of Token Retrieval in Multi-Vector Retrieval
作者:Jinhyuk Lee, Zhuyun Dai, Sai Meher Karthik Duddu, Tao Lei, Iftekhar Naim, Ming-Wei Chang, Vincent Y. Zhao
[Google Research, Brain Team]
简介:
诸如ColBERT等多矢量检索模型允许查询和文档之间的标记级互动,因此在许多信息检索基准上达到了先进水平。然而,他们的非线性评分函数不能扩展到数百万份文件,这就需要一个三阶段的推理过程:通过令牌检索检索初始候选文件,访问所有令牌向量,并对初始候选文件进行评分。非线性评分函数适用于每个候选文档的所有标记向量,使得推理过程复杂而缓慢。
在本文中,我们旨在通过重新思考令牌检索的作用来简化多矢量检索。我们提出了XTR,即ConteXtualized Token Retriever,它引入了一个简单而新颖的目标函数,鼓励模型首先检索出最重要的文档标记。对标记检索的改进使XTR只用检索到的标记而不是文档中的所有标记对候选者进行排名,并使新设计的评分阶段比ColBERT的评分阶段便宜2-3个数量级。在流行的BEIR基准上,XTR将最先进的技术提高了2.8 nDCG@10,而不需要进行任何提炼。详细的分析证实了我们重新审视标记检索阶段的决定,因为与ColBERT相比,XTR显示出标记检索阶段的召回率要好很多。
https://arxiv.org/pdf/2304.01982.pdf