【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

606次阅读
没有评论

2023年10月12-15日,第12届国际会议NLPCC2023(中国计算机学会主办的自然语言处理和中文计算领域的高水平国际会议,CCF-C类会议)在广东佛山召开。此次会议主会共有效投稿478篇,接收论文143篇,录用率为29.9%。南京大学自然语言处理组张建兵副教授指导马征、王长欣等同学完成的学术论文“Bounding and Filling: A Fast and Flexible Framework for Image Captioning”荣获最佳论文奖(Best Paper Award)。该论文由南京大学自然语言处理组独立完成。

论文正式版链接:https://link.springer.com/chapter/10.1007/978-3-031-44693-1_37

论文代码链接:https://github.com/ChangxinWang/BoFiCap

论文视频讲解链接:https://www.bilibili.com/video/BV1Qy4y1A7FD

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

01

研究动机


图像描述(image captioning)是多模态领域的一个基础任务,它要求模型可以为一张图片生成符合图片内容的文本描述。当前大多数图像描述模型是基于自回归(autoregressive)的架构,这需要比较高的推理时间。但是,实际应用通常会要求模型有更快的推理速度,如自动驾驶,盲人导航等等。之前的研究人员利用非自回归(non-autoregressiveNA)或半自回归(semi-autoregressiveSA)的方法对图像描述模型进行推理加速,图1a)和(b)分别展示了两种生成方式的过程。然而,基于NA的方法会带来模型性能的下降,生成文本不通顺等问题。这是由于在NA过程中,所有单词是一次性生成的,它们之间很难建立彼此之间的联系。SA方法虽然在一定程度上缓解了不通顺的问题,但是它会把句子切分成无意义的词组(如图1b)中的 “dog lying”  “on the”),这不利于模型的学习。

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖1: 不同生成方式的对比

我们观察到,文本的描述经常会使用一个名词词组来描述一个图像中的概念(如图1中的 “a cute dog”),使用一个动词词组或者连词词组来描述它们之间的关系(如图1中的“lying on”)。因此我们提出一种两阶段的图像描述生成方法,如图1c)所示。我们首先对要生成的文本根据图片内容预测出要生成词组的概念类型和边界框(Bounding阶段),然后根据Bounding过程预测的类型进行内容填空(Filling阶段)。我们融合了NASA两种方法,在共享的解码器中可以根据速度和性能的权衡进行生成模式的切换,以更灵活的方式为图像生成合适的文本。

02

贡献


  1. 我们提出了一个快速、灵活的图像描述生成新框架(BoFiCap),将生成过程分解为Bounding和Filling阶段。BoFiCap 利用Bouding预测概念类型和边界框,然后使用NA或SA的Filling方法来填充它们。此外,我们的模型具备以灵活方式为同一图像生成多样化的描述能力。

  2. 为增强 BoFiCap 的能力,我们共享了NA和SA方法的解码器的参数。此外,我们提出了一种模仿策略,用于提高NA Filling捕捉词汇依赖性的能力。

  3. 实验结果表明我们的方法的有效性。在NA方式下,我们的方法取得了最先进的性能,同时相对于基线模型实现了9.22倍的速度提升。在SA方式下,我们的方法达到了128.4的CIDEr分数,并伴随着3.69倍的速度提升。

03

方法‍‍‍‍


BoFiCap的整体模型是基于Transformer的,如图2所示,由特征编码器(Feature Encoder),边界模块(Bounding Module)以及两个解码器(Non-autoregressive Decoder and Semi-Autoregressive Decoder)构成。

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖2BoFiCap的模型架构图

3.1构造句子的边界框

为了构造句子的边界框,我们使用了一个语法解析工具来提前分割句子。具体而言,一段描述被解析成一个分层的树状结构,其中从浅到深的层次表示粗到细的边界信息。如图3所示,一整段描述首先被划分为‘a woman and a man’和‘walking on a road with many trees’两部分。然后,这两部分可以进一步划分为更细的组成部分。我们定义了三种类型的框:NP框(代表名词词组)、VP框(代表动词词组)和CP框(代表连词及其他词组),分别对应组成分析器中的NPVPCP标签。我们将它们命名为level-k以区分不同的层次,其中k = -1代表那些无法再切割的所有短语。

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖3: 一个描述被解析成树状结构

3.2模仿策略

由于SA Filling是部分并行的,它可以在一步内填充一个框,因此更好地捕捉了词语之间的关系,并且表现比NA Filling更好。因此,在我们的模型中,我们通过在线知识蒸馏方法让NA Filling模仿SA Filling。则模仿损失可以表示为Kullback-LeiblerKL)散度,如下所示:

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

3.3训练模型

我们的模型训练分为两个阶段:交叉熵阶段(CE stage)和强化学习阶段(RL stage

CE阶段包括两个步骤:预测边界和填充。预测边界步骤需要预测框的类型和每个框中要填充的词汇数量。这一步的目标是通过最大似然估计来最小化正确类型的框和单词数量的负对数似然:

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

NA方式的生成损失:

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

SA方式的生成损失:

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

最后的损失函数:

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

RL阶段,我们使用CIDEr作为奖励,直接通过SCST方法来最小化负期望奖励:

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

04

实验


我们在MSCOCO2014 Captioning数据集上进行的实验,包括123287张图片,每张图片至少由5个对应的描述。我们使用了常用的评价指标对模型的性能进行了对比,包括BLEUMETEORROUGECIDErSPICE。此外,我们还报告了推理时间和加速比。

4.1主要实验结果

如表1所示,我们在NA方法上实现了最好的效果,同时有9.22倍的加速;在SA方法上,也有不错的效果,同时有3.69倍的加速。

表1: 主要实验结果【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

4.2不同层级划分方法的实验对比

我们在表2中报告了不同层级划分方法的实验对比结果。在SA填充中,加速主要是因为训练使用浅层划分的模型生成了具有更少边界框的描述,从而减少了解码步骤。比较从12层的结果,我们看到速度提升从5.19倍到8.51倍,而CIDEr分数仅略微下降(1.6分)。在NA填充中,加速主要来自减少边界框步骤和预测相应单词数量,因为我们的边界模块以自回归方式绑定框。比较从12层的结果,我们看到速度提升从11.45倍到13.83倍,而CIDEr分数仅略微下降(1.7分)。

表2不同层级划分方法的实验结果【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

4.3消融实验

如表3所示,在非自回归方式中,我们实现了一个单一的非自回归模型,命名为NAIC。从图6中,我们可以观察到,我们的BoFiCap-NA 通过边界框大大提高了 CIDEr 分数,从108.5提高到122.3。通过添加联合训练和模仿策略可以进一步提高性能,最终使我们的 BoFiCap-NA 模型在CIDEr分数上达到了最先进的水平(125.6)。

表3消融实验的结果【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖

4.4实例展示
    
我们在图4中提供了六个示例。在图4中展示的前两个示例中,我们比较了AICNAICBoFiCap模型的两种方式生成的句子。总体而言,所有模型都有效地表示了给定图像的视觉内容。与基线NAIC相比,我们的BoFiCap模型的两种方式生成的句子更加流畅和精确。此外,我们的BoFiCap模型能够准确分配词语与相应的框类型,导致描述更具句法结构,减少了重复性。为展示BoFiCap的多样化生成能力,我们还在图4的中部和底部提供了使用不同的框或分层级别生成的多个句子。

【Best Paper Award】祝贺南京大学自然语言处理组获得国际会议NLPCC2023最佳论文奖图4一些生成例子

05

总结


在本文中,我们提出了一种新的图像描述框架,命名为 BoFiCap,它把图像描述生成分为BoudingFilling两个阶段。与以往的加速方法不同,我们的方法利用文本句子的属性,通过BoudingFilling来分解生成步骤。此外,我们的框架提供了更灵活的图像描述生成方式,以满足用户的具体需求。








 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy