Motivation
- image captions 通常用reference-based的评价指标(即利用人写的caption来作为GT评估生成字幕的好坏),本文提出了无需reference caption 的一个评价标准。
Proposal
- 本文提出了一种reference-free的评价指标——CLIPScore,这种评价标准更具鲁棒性,不再是单纯用人标注的caption来评估。
- 本文的方法比reference-based的评价指标CIDEr和SPICE,和人类的判断一致性更强。与现在text-text的评价标准相比,image-text的评价更为完善。
Method
- 直接计算图文相似度,作为评价标准~

- 找了特例来说明原来reference-based的方法的缺点
Evaluation With CLIP
- 固定住text的prompt为 A photo depicts (原始论文显示这样的效果也更好?)
- 其中�是一个scaling系数, 文中设置为25; �为caption的 CLIPembedding; �为CLIP image embdding
- 需要强调的是, 这个评价指标只用了reference的图片, 并没有reference的文本, 所以是reference-free的评价方法.
RefCLIPScore
- 把reference的文本也拿过来做evaluation, 最后结果取harmonic mean
Benchmark
- Flickr8K-Expert和Flickr8K-CF都是由人进行二次判断的数据集,判断字幕是否和图像对应。(human ratings)。因而我们可以计算评价指标的结果和human rating结果的相关性,从而评估这个指标的好坏。
- 实验结果:

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
