打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

595次阅读
没有评论

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器

UNITE团队 投稿
量子位 | 公众号 QbitAI

多模态检索是信息理解与获取的关键技术,但其中的跨模态干扰问题一直是一大难题。

可行的解决办法是构建一种统一的多模态表示方式,为此,来自快手与东北大学的研究人员推出了多模态统一嵌入框架——UNITE

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

UNITE的核心目标,就是构建一个能同时处理文本、图像、视频及其融合模态输入的统一嵌入器。

它从数据策划与训练机制两个关键视角出发,用对比学习的机制重新定义了统一多模态表示学习的范式。

在细粒度检索、指令检索等多个评测中,UNITE框架都斩获了最佳成绩。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

模态感知对比学习,缓解跨模态干扰

在多模态检索任务中,不同模态(文本、图像、视频)天然存在分布差异。

如果在训练时将所有模态混合进行对比学习,会导致表示空间产生语义扭曲或干扰噪声,影响模型对各模态语义的准确建模。

为了解决这一挑战,UNITE团队提出了Modal-Aware Masked Contrastive Learning(MAMCL)这一对比学习机制,能显著缓解跨模态“相互干扰”。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

在传统InfoNCE损失下,模型会尝试最大化正样本对之间的相似度,并最小化其与负样本之间的相似度:

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

但这种方式不能区分模态组合,例如,一个query的正样本为文本模态,但其负样本可能是图像、视频或者其他模态组合。这可能导致模型用图像来学文本相似度,产生模态冲突。

MAMCL的核心思想是模态掩码约束,也就是只在与当前query目标模态一致的负样本中进行对比,从而避免模态间的错误竞争。

给定一个批次中个query,每个query()对应一个正样本和个负样本,构造相似度矩阵:

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

其中是第个候选样本,是温度系数。

接下来引入模态掩码矩阵,用于标记候选样本与正样本模态是否一致:

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

其中表示提取候选样本的模态标签(例如 text, image, video, text+video)。

然后,构造模态感知掩码相似度矩阵:

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

这一步确保在计算损失时,仅考虑模态一致的样本

最终,MAMCL损失定义为(p是当前query对应的正样本索引):

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

为了平衡泛化能力与判别能力,UNITE采用了“检索适应 + 指令微调”的两阶段训练方案:

  • 检索适应阶段,使用text-text、text-image、text-video等多模态数据训练模型的基本检索能力,同时引入高粒度视频-文本数据,显著提升模型的细粒度区分能力;
  • 指令微调阶段,基于MMEB、CoVR等复杂多模态指令任务训练,增强模型的指令遵循能力和扩展性。

多个评测中斩获最佳成绩

在细粒度检索、指令检索等多个评测中,UNITE框架都斩获了最佳成绩。

图像-文本检索任务中,在ShareGPT4V、Urban1K和DOCCI上,UNITE显著超越E5-V和VLM2Vec等模型;

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

视频-文本检索方面,UNITE的2B模型在CaReBench三个子任务(General/Spatial/Temporal)中的General和Spatial里超越了前SOTA,7B模型以显著领先水平刷新当前最好表现。

UNITE 7B在CaReBench上分别达到86.0,86.9,86.5,84.8,52.4,55.4。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

指令检索任务里,作者的UNITE系列模型也在多个数据集上表现出色。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

具体来说,在涵盖分类、VQA、检索、定位四类任务共36个数据集的MMEB Benchmark中,UNITE 7B达到了最优性能70.3,超越了更大规模的模型mmE5 11B (69.8) 和IDMR 26B (69.2)。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

在合成视频检索任务CoVR上,UNITE 2B和UNITE 7B达到了69.1和72.5,均明显领先于现有SOTA模型(60.1)。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

为验证其通用性,团队还在多个标准跨模态检索任务上进行了评估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任务上,展现了良好的通用表征能力。

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

综合来看,UNITE支持文本、图像、视频及融合模态内容,并展现了综合最优性能。

其可视化结果如下:

打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

另外在实验过程当中,作者还有三个关键发现。

一是视频-文本数据具备“统一模态”的核心能力

具体来说,视频-文本对数据在所有配置中表现最为突出,不仅在视频检索任务中遥遥领先(如MSR-VTT、MSVD),甚至在图文检索任务中也超越了基于图像-文本对训练的模型。

二是指令类任务更依赖文本主导的数据支撑——

尽管视频-文本对数据在一般检索任务中表现出色,但在复杂检索指令跟随类任务(如MMEB、CoVR)中,其优势反而不明显。

这类任务需要模型理解长文本、复杂逻辑或多阶段指令,研究认为,Text–Text数据提升了语言理解与逻辑构建能力,而Text–Image数据提供精准的视觉语义映射,利于模态对齐。

最后,细粒度Text-Video样本的添加策略影响巨大,直接在第一阶段“检索适应”中融合细粒度视频-文本样本,能带来整体性能最优解,相比传统“先对齐后微调”的做法更加有效且高效。

更多方法和实验细节,请参照论文。

论文链接:https://arxiv.org/pdf/2505.19650
代码链接:https://github.com/friedrichor/UNITE
项目链接:https://friedrichor.github.io/projects/UNITE
模型/数据链接:https://huggingface.co/collections/friedrichor/unite-682da30c4540abccd3da3a6b

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 6 月
 1
2345678
9101112131415
16171819202122
23242526272829
30  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...