ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集

研究动机

随着视觉–语言模型（Visual-Language Models, VLMs）在大量单模态和多模态下游任务上取得了显著的成功，全面理解它们的能力也变得至关重要。除了传统的观察模型在下游任务的微调表现外，目前大量工作通过衡量模型在精心构造的测试集上的零样本表现，来评估VLMs的特定能力。然而，这些工作所构造的数据集仍然局限在通用领域，我们仍然缺乏对 VLMs在特定领域能力的认知。假设VLMs在特定领域表现良好，我们就可以直接在该领域中使用这些模型而不进行任何修改。因此，我们全面研究VLMs在一个特定领域（食物领域）的泛化能力。为此，我们构建了一个食品描述数据集，Food-500
Cap，包含24700张食品图片，分为494个类别。每张图片都附有详细的描述，包括食物的细粒度属性，如成分、形状和颜色。我们还提供了一个饮食文化分类法，根据每种食物的地理起源来分类，以便更好地分析VLM在不同烹饪文化数据上的表现差异，如图1所示。在我们提出的数据集上的实验表明，流行的VLMs在食品领域的表现与在通用领域相比较差。此外，我们的研究揭示了VLMs在处理来自不同地域的食物时存在严重的偏见。我们采用了多种探测方法，评估了属于不同架构的九种VLMs，以验证上述观察结果。我们希望此项研究能够引起研究人员对于VLMs在应用于食品或烹饪文化领域时局限性的关注，并激发进一步的研究来解决这个问题。

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集图1 Food-500 Cap的一个例子

贡献

1.我们为ISIA Food-500数据集的一个子集配备了（1）细致的图像描述（2）每个食品类别的地理来源。基于这个增强的数据集，我们提出了Food-500 Cap，它作为一个基准来评估视觉语言模型（VLMs）在食品领域的能力。据我们所知，Food-500 Cap是第一个专门针对食品领域的图像描述数据集。

2.我们在我们的基准上评估了九种不同架构的代表性VLMs，并使用四个探索任务全面分析VLMs在食品领域的表现。

3.我们在Food-500 Cap上的实验结果揭示了VLMs在食品领域的局限性，以及它们对特定烹饪文化的偏见。

数据集构建

选择图片：为了确保食品类别的多样性，我们使用了来自ISIA Food-500的图片，这是一个全面的食物识别数据集，包含399,726个样本，涵盖了来自不同国家和地区的500种食品类别。对于每个类别，我们从ISIA Food-500中随机选择50张图片。需要注意的是，实际上我们目前只使用了500个类别中的494个，有六个类别是手动移除的。

标注句子：为了获得描述细致视觉特征的高质量描述，我们雇佣了一家数据注释公司，并要求标注者遵循以下三条规则：首先，注释者必须在每个描述中包含类别标签，其中包含食物的主要信息。其次，我们鼓励注释者尽可能仔细，标记图像的所有可见内容，不仅包括食物的颜色、形状、成分、调味料、配件等，还包括容器的颜色、形状、图案等。为了确保描述的独特性，应尽可能避免使用一些普通词汇，如水果和蔬菜。最后，每个注释者都被指导将上述信息整合成流畅的句子，并使用多样的句法结构。

标注区域：尽管包含了多样化的食品类别，ISIA Food-500的一个不足之处是它将来自不同地区的食品类别混合在一起，而没有标明它们的原始地区，这阻碍了对烹饪文化的进一步研究。因此，我们基于维基百科，标记了每个食品类别的原始地区。结果，所有食品类别被划分为七个地区：全球、西方、拉丁美洲、中国、日本、印度和亚洲。表1显示了这些地区的食品类别分布。需要注意的是，有90个食品类别的原产地不明确，所以我们将它们归入全球类别。

Food-500 Cap包含24,700张图像，均匀分布在494个类别中。每个描述的平均长度为18.57个词，平均包含7.26个名词、1.96个动词和2.53个形容词。Food-500 Cap与其他食物相关的数据集的对比如表2所示。

表1 Food-500
Cap中食品类别的地区分布 ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集

表2 流行食品领域数据集和Food-500 Cap的概述 ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集

测试多模态预训练模型在食物领域的性能

(1) 视觉语言表示模型（Vision-language
Representation Models）

我们测试了CLIP, TCL, X_VLM, FLAVA和BLIP5个模型，使用了图像分类，图像-文本双向检索两个任务对他们它们在食物领域的性能进行评价，图像分类的实验结果展示在图2中，图像文本互检索的实验结果展示在表3中。实验发现，在图像分类任务上，VLMs未能识别某些食品类别，并展现出对烹饪文化的偏见；在图像-文本双向检索上，与通用领域相比，VLMs的总体表现并不是很好，在某些类别上的也表现出了很大的偏见。

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集图2 零样本分类的结果

表3 Food-500
Cap上零样本跨模态检索结果

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集

(2) 图像到文本生成模型（Image-to-text
Generative Models）

我们测试了GIT，OFA以及BLIP三个模型，使用图像描述生成模型作为评价任务，实验结果展示在表3，表4中。实验发现，这些模型在描述中很难生成正确的标签,也很少生成细粒度的描述词，如图3所示。

表4 在各种度量标准上的图像描述生成的结果

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集

表5 整个数据集（whole）以及根据我们对食品类别分类的不同地区的语义标签准确度（百分比）

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集图3 三种图像到文本生成模型与真实情况（GT）生成描述示例的对比

(3) 文本到图像生成模型 (Text-to-image
Generative Models)

我们测试了DALL-E和Stable Diffusion两个模型，使用图像生成进行评价，实验结果展示在表6和图6中。实验表明，合成图像与真实图像之间存在显著差距，也面临与先前模型类似的地区不平衡问题。

表6 不同文本到图像生成模型的指标

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集图4 在真实图像与合成图像上训练的分类器的准确性（按地区划分）

总结

在这项工作中，我们提出了Food-500 Cap，这是食品领域的一个新的视觉语言基准。Food-500 Cap不仅为每张图片提供了细致的视觉内容描述，还标记了一个将食品类别划分为其地理起源的新分类法，这有助于研究不同地区的烹饪文化。我们在零样本设置中采用了四个视觉语言任务，包括食品分类、图像–文本双向检索、图像描述生成和图像合成，并在我们提出的基准上评估了三种不同架构的九种VLMs。实验揭示了VLMs在食品领域的局限性及其对烹饪文化的偏见。我们希望我们提出的基准能促进多模态食品计算的研究。

2023 年 12 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ACM MM2023论文：Food-500 Cap：用来评测视觉-语言模型的细粒度图像描述数据集

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

手把手教你用AI 10分钟生成一个APP！零基础也能搞定