仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

白交
2025-03-07
14:58:33

来源：量子位

算法能够以极低成本持续生成多样化且高质量的多模态三元组

允中发自凹非寺

量子位 | 公众号 QbitAI

BGE系列模型自发布以来广受社区好评。近日，智源研究院联合多所高校开发了多模态向量模型BGE-VL，进一步扩充了原有生态体系。

BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。BGE-VL借助大规模合成数据MegaPairs训练而成。

这一设计具备以下两大核心优势:

优异的可扩展性：MegaPairs 结合多模态表征模型、多模态大模型和大语言模型，在海量图文语料库中高效挖掘多模态三元组数据。其算法能够以极低成本持续生成多样化且高质量的多模态三元组。本次发布的版本涵盖 2600 万条样本，为多模态检索模型的训练提供了大规模、高价值的数据支持。
卓越的数据质量：相较于传统多模态数据，MegaPairs 仅需 1/70 的数据量即可实现更优的训练效果。利用该合成数据，智源训练了多模态检索模型 BGE-VL，显著提升了多个主流多模态检索基准的性能。

BGE-VL的技术报告已发布，相关数据、模型及代码资源将陆续向社区全面开放。

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

MegaPairs构造

在大模型时代，信息检索需要满足人们日益多样化的需求，这种需求不仅体现在用户的多模态查询输入上，也体现在对多模态信息的需求上。例如，用户可能拍摄一张汽车外观图，并希望获取该款汽车的指定信息。在这种情况下，多模态检索器需要综合理解用户的图像和文本指令，并从多种模态的信息中检索出最相关的内容。

然而，现有的多模态检索模型通常基于单一形式的跨模态配对数据（如图像-文本对）进行训练，这使得它们难以处理复杂的组合模态输入。近年来，指令微调技术在文本检索和大语言模型等领域已经证明了其增强多任务能力的有效性。然而，以往的多模态检索指令数据集大多依赖人工标注，限制了大规模多样化数据的获取。

为解决这一限制，智源BGE团队创新性地提出了MegaPairs数据合成方法。该方法通过从现有大规模图像数据集中挖掘多样的关联图像对，并利用开源多模态大模型和大语言模型进行自动化指令生成，从而构建出高质量、可扩展、泛化性强的多模态检索指令微调数据集。团队基于MegaPairs的高质量数据，训练并开源多模态向量模型BGE-VL系列，实现了当前最佳的多模态检索能力。

MegaPairs提出从现有大规模图文语料库中挖掘并构造大规模、高质量多模态检索指令数据集。

具体地，MegaPairs的构造主要分为两个关键步骤：

（1）使用多种相似度模型从图像数据集中挖掘多样的图像对；

（2）使用开源的多模态大模型和大语言模型合成开放域检索指令。

以下图为例，MegaPairs首先从大规模图像数据集中采样一对图像-文本数据作为查询数据。然后，利用多种图像和文本相似度模型，挖掘出多组关联图像对（例如：同款汽车的外饰与内饰、同款汽车不同涂装、同品牌汽车未来概念图等）。接着，针对这些挖掘出的图像对，MegaPairs采用两阶段标注方法：首先使用多模态大语言模型（MLLM）总结两张图片之间的关联关系，然后使用大语言模型（LLM）撰写最终的开放域检索指令。

值得注意的是，MegaPairs完全基于开源数据集和开源模型进行自动化构建和标注。通过引入多个相似度模型和两阶段标注方法，MegaPairs能够在无需人工参与的情况下，扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。

△MegaPairs多模态三元数据构造流程

基于上述流水线，MegaPairs合成了超过2600万条（查询图像, 查询语句, 目标图像）三元数据对。此外，鉴于“难负例”在训练检索模型的重要性，MegaPairs对于每组挖掘的图像对数据都选取了其他相似图片作为难负例。

BGE-VL模型

基于MegaPairs合成的大规模多模态检索指令数据集，智源BGE团队训练出了3款不同尺寸的多模态检索模型。包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large，以及基于多模态大模型架构的BGE-VL-MLLM。团队发现，仅仅使用MegaPairs三元组数据训练，模型就在多个任务上实现了远超以往方法的的领先性能优势。

综合多模态嵌入任务性能表现

团队首先在Massive Multimodal Embedding Benchmark（MMEB）上验证了BGE-VL模型的性能。MMEB是一个综合性基准测试，涵盖了4大类共计36个不同多模态嵌入评测任务：分类（Classification）、视觉问答（Visual Question Answering）、检索（Retrieval）和视觉定位（Visual Grounding）。

△MMEB评测任务示例图

在零样本性能表现方面，BGE-VL在MMEB的多个任务类型和整体评分均实现了最优性能。更令人兴奋的是，MegaPairs并未包含MMEB中的绝大部分任务类型数据（例如Classification、VQA，Grounding），却能够实现良好的任务泛化能力。

根据MMEB的设置，团队进一步在MMEB的分布内（IND）集合（包含36个评测任务中的20个任务）上对BGE-VL进行了有监督微调。实验结果显示，BGE-VL的平均性能指标相比直接在MMEB上微调的VLM2Vec (LLaVA-1.6) 模型高出9.1个百分点。同时，在分布外（OOD）数据集上的平均表现也比两版VLM2Vec分别高出11.6%和7.1%。这些结果证明了MegaPairs数据的高质量和泛化能力。

组合图像检索性能

传统图像检索通常采用“文搜图”或“图搜图”的方式。近年来，组合图像检索作为一种新兴的图像搜索范式，允许用户同时输入图像和搜索指令，实现更精准的图像检索效果。这一方法被谷歌称为“下一代图像搜索范式”。

在当前主流的组合图像检索评测集CIRCO上，BGE-VL在不同模型尺寸上均显著刷新了现有基准。大幅超越包括谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。具体而言，BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点。此外，BGE-VL-Base模型以不到1/50的参数量超越了如MM-Embed和E5-V等大模型底座的多模态检索器。这些实验结果有力展示了MegaPairs数据的有效性。

团队还对MegaPairs的可扩展性和数据质量进行了深入研究。如图所示，一方面，随着MegaPairs数据规模的增加，BGE-VL模型表现出一致的性能增长趋势，证明了MegaPairs数据构造方法的良好可扩展性。

另一方面，与在37M闭源数据上训练的SOTA模型Google MagicLens相比，MegaPairs仅需1/70的数据规模（0.5M）即可实现显著的性能优势，证明了MegaPairs数据的高效性和高质量。

△MegaPairs可扩展性分析：使用不同规模的MegaPairs数据训练BGE-VL-base模型在各评测基准上的性能变化趋势。虚线表示基于CLIP-base并在37M MagicLens数据集上训练的MagicLens-B模型的性能。

BGE-VL检索可视化结果

未来，智源将继续探索MegaPairs与更丰富的多模态检索场景结合，进一步打造更全能通用的多模态检索器。

更多方法和实验细节请参照论文。

论文地址：https://arxiv.org/abs/2412.14475
项目主页： https://github.com/VectorSpaceLab/MegaPairs
模型地址： https://huggingface.co/BAAI/BGE-VL-MLLM-S1

2025 年 3 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

MegaPairs构造

△MegaPairs多模态三元数据构造流程

BGE-VL模型

综合多模态嵌入任务性能表现

△MMEB评测任务示例图

组合图像检索性能

BGE-VL检索可视化结果

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex