腾讯:零样本多模态标签的大语言模型TagGPT

1,009次阅读
没有评论

腾讯:零样本多模态标签的大语言模型TagGPT

标签在当代互联网时代的各种应用中起着至关重要的作用,如搜索引擎和推荐系统中的多媒体内容有效分发。最近,大型语言模型(LLMs)在各种任务中展现出了令人瞩目的能力。在本文中,本文提出了TagGPT,这是一个完全自动化的系统,能够以完全零-shot的方式进行标签提取和多模态标记。本文的核心见解是,通过精心设计的提示,LLMs能够根据多模态数据的文本提示提取和推理出适当的标签。例如,OCR,ASR,标题等。具体来说,为了自动建立反映用户意图和兴趣的高质量标签集,TagGPT通过提示LLMs预测大规模候选标签,经过词频和语义过滤。针对需要标记以进行分发的新实体,TagGPT提供两个零-shot标记的选择,即,生成方法和标签集的后期语义匹配以及早期提示中的早期匹配的选择性方法。值得注意的是,TagGPT提供了一个基于模块化框架的系统级解决方案,配备了预训练的LLM(这里使用GPT-3.5)和一个句子嵌入模型(这里使用SimCSE),可以无缝地替换为任何您想要的更高级的模型。TagGPT适用于现代社交媒体中各种数据的模态,并展示了对广泛应用范围的强大泛化能力。本文在公开可用的数据集(即Kuaishou和Food.com)上评估了TagGPT,并展示了TagGPT与现有哈希标签和现成标签器相比的有效性。

总结:

TagGPT是一种大型语言模型,具有零-shot多模式标记功能。它可以同时处理文本和图像信息,并能够在未经过任何训练的情况下为图像进行标记。TagGPT使用了Transformer架构,该架构已被证明在处理自然语言时非常有效。它还使用了零-shot学习方法,这意味着它可以使用先前未见过的标记类型进行标记,而无需进行传统的监督式训练。TagGPT的训练是由自然语言处理任务和图像标记任务组成的,这使得它成为一种具有更广泛应用领域的模型。

标题:TagGPT: Large Language Models are Zero-shot Multimodal Taggers

作者:Chen Li, Yixiao Ge, Jiayong Mao, Dian Li, Ying Shan

平台:https://github.com/TencentARC/TagGPT

腾讯:零样本多模态标签的大语言模型TagGPT

腾讯:零样本多模态标签的大语言模型TagGPT

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy