一种对称双编码密集检索框架,用于知识密集型视觉问答。

489次阅读
没有评论

A Symmetric Dual Encoding Dense Retrieval Framework for
Knowledge-Intensive Visual Question Answering

解决问题:本文旨在解决知识密集型视觉问答(KI-VQA)任务中,回答与图像无关的问题的问题。该论文提出了一个新的KI-VQA任务的流程,包括检索器和阅读器。该论文的目的是提出一种新的检索框架和融合模型,以提高KI-VQA任务的准确性。

关键思路:本文提出了一种称为DEDR的对称双编码密集检索框架,其中文档和查询使用单模态(文本)和多模态编码器编码为共享嵌入空间。本文还介绍了一种迭代知识蒸馏方法,以弥合这两种编码器中的表示空间之间的差距。该论文还提出了一种名为MM-FiD的编码器-解码器多模态融合解码器模型,用于生成KI-VQA任务的文本答案。

其他亮点:该论文在两个著名的KI-VQA数据集上进行了广泛的评估,即OK-VQA和FVQA。结果表明,DEDR在OK-VQA和FVQA上的表现优于现有的基线模型。使用DEDR检索到的段落,本文进一步引入了MM-FiD模型,用于生成KI-VQA任务的文本答案。相比于现有文献中的竞争基线,该方法在OK-VQA和FVQA的问题回答准确性方面分别提高了5.5%和8.5%。

关于作者:本文的主要作者是Alireza Salemi,Juan Altmayer Pizzorno和Hamed Zamani。他们分别来自加州大学洛杉矶分校和华盛顿大学。以前,Alireza Salemi曾在谷歌研究实习,Hamed Zamani曾在微软研究院实习。

相关研究:近期的相关研究包括:

  1. “DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialog”,作者:Xiaoyu Wang等,机构:南京大学。
  2. “Towards VQA Models That Can Read”,作者:Yash Kant等,机构:印度理工学院。
  3. “Visual Question Answering with Multi-Modal Attention-Based Graph Neural Network”,作者:Wenjie Li等,机构:香港中文大学。

论文摘要:本文提出了一种新的知识密集型视觉问答(KI-VQA)任务的管道,包括检索器和阅读器。首先,我们引入了DEDR,这是一种对称的双编码密集检索框架,其中文档和查询使用单模(文本)和多模编码器编码成共享嵌入空间。我们引入了一种迭代知识蒸馏方法,以弥合这两个编码器中的表示空间之间的差距。在两个已建立的KI-VQA数据集(即OK-VQA和FVQA)上进行了广泛的评估,结果表明DEDR在OK-VQA和FVQA上的表现优于现有的基线模型,分别提高了11.6%和30.9%。利用DEDR检索到的段落,我们进一步引入了MM-FiD,这是一种编码器-解码器多模融合解码器模型,用于为KI-VQA任务生成文本答案。MM-FiD分别对问题、图像和每个检索到的段落进行编码,并在其解码器中联合使用所有段落。与文献中的竞争基线相比,这种方法在OK-VQA和FVQA上的问答准确性分别提高了5.5%和8.5%。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy