智源 ACM MM2023论文:Food-500 Cap:用来评测视觉-语言模型的细粒度图像描述数据集 01 研究动机 随着视觉–语言模型(Visual-Language Models, VLMs)…