谷歌发布XTR：重新思考符号检索在多矢量检索中的作用

1,409次阅读

在本文中，提出了XTR,即ConteXtualized Token Retriever，它通过改进初始令牌检索阶段来简化现有的多向量模型的三阶段推理。具体而言，XTR仅根据检索到的令牌对文档进行评分，这在使用批处理文档令牌进行训练期间也得到了优化。因此，XTR在零样本信息检索基准上实现了最先进的性能，同时大大降低了评分阶段的FLOP。

标题：Rethinking the Role of Token Retrieval in Multi-Vector Retrieval

作者：Jinhyuk Lee, Zhuyun Dai, Sai Meher Karthik Duddu, Tao Lei, Iftekhar Naim, Ming-Wei Chang, Vincent Y. Zhao

[Google Research, Brain Team]

简介：

诸如ColBERT等多矢量检索模型允许查询和文档之间的标记级互动，因此在许多信息检索基准上达到了先进水平。然而，他们的非线性评分函数不能扩展到数百万份文件，这就需要一个三阶段的推理过程：通过令牌检索检索初始候选文件，访问所有令牌向量，并对初始候选文件进行评分。非线性评分函数适用于每个候选文档的所有标记向量，使得推理过程复杂而缓慢。

在本文中，我们旨在通过重新思考令牌检索的作用来简化多矢量检索。我们提出了XTR，即ConteXtualized Token Retriever，它引入了一个简单而新颖的目标函数，鼓励模型首先检索出最重要的文档标记。对标记检索的改进使XTR只用检索到的标记而不是文档中的所有标记对候选者进行排名，并使新设计的评分阶段比ColBERT的评分阶段便宜2-3个数量级。在流行的BEIR基准上，XTR将最先进的技术提高了2.8 nDCG@10，而不需要进行任何提炼。详细的分析证实了我们重新审视标记检索阶段的决定，因为与ColBERT相比，XTR显示出标记检索阶段的召回率要好很多。

https://arxiv.org/pdf/2304.01982.pdf

谷歌发布XTR：重新思考符号检索在多矢量检索中的作用

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

AI AR CG HTML RSS 技术设计

发表至：智源

2023年4月5日

华为文生图大模型：仅0.6B，生成4K分辨率图像；DeepMind：让机器人学会动作语言｜大模型周报

反转了！清华校友殒命与谷歌裁员无关，家暴细节曝光，男方被控谋杀

网易大数据智能运维平台 EasyEagle

央广经济之声频道《天下财经》专访：政府工作报告重要提法系列解读 | 梁正解读“人工智能+”行动

FASTAI发布免费课程：从深度学习基础到稳定扩散，从Python 开始创建和训练稳定的扩散模型

CVPR 2023｜DATID-3D：使用文本-图像扩散的三维生成模型的多样性保留领域适应

评论（没有评论）

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

热评文章

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30