怎么让幻觉降低30%?

1,526次阅读
没有评论

怎么让幻觉降低30%?

  • 论文地址: https://arxiv.org/pdf/2310.16045.pdf
  • 项目地址: https://github.com/BradyFU/Woodpecker

介绍

视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题,它指的是”模型输出的描述与图片内容不相符”这一现象,如下图所示:

怎么让幻觉降低30%?

图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。

以往的方法主要集中在MLLM本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的MLLM。这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的MLLMs。

近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构 “啄木鸟(Woodpecker)” ,论文:Woodpecker: Hallucination Correction for Multimodal Large Language Models ,通过修正的方式解决MLLM输出幻觉的问题。

Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。

例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分。

怎么让幻觉降低30%?

对于MLLM难以检测到的小对象,Woodpecker也可以精准修正:

怎么让幻觉降低30%?

面对MLLM难以解决的复杂的计数场景,Woodpecker同样可以进行解决:

怎么让幻觉降低30%?

对于目标属性类的幻觉问题,Woopecker处理地也很好:

怎么让幻觉降低30%?

我们还提供了Demo供读者测试使用,如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。

怎么让幻觉降低30%?

方法

Woodpecker的架构如下,它包括五个主要步骤:  关键概念提取、问题构造、视觉知识检验、视觉断言生成 以及幻觉修正。

怎么让幻觉降低30%?

关键概念提取: 关键概念指的是MLLM的输出中最可能存在幻觉的存在性目标,例如上图描述中的“自行车;垃圾桶;人”。我们可以Prompt大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础;

问题构造: 围绕着前一步提取出的关键概念,Prompt大语言模型来提出一些有助于检验图片描述真伪的问题,如“图中有几辆自行车?”、“垃圾桶边上的是什么?”等等;

视觉知识检验: 使用视觉基础模型对提出的问题进行检验,获得与图片以及描述文本相关的信息。例如,我们可以利用GroundingDINO来进行目标检测,确定关键目标是否存在以及关键目标的数量。这里我们认为像GroundingDINO这类视觉基础模型对图片的感知能力比MLLM本身的感知能力更强。对于目标颜色等这类属性问题,我们可以利用BLIP-2来进行回答。BLIP-2这类传统VQA模型输出答案的长度有限,幻觉问题也更少;

视觉断言生成: 基于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。这些视觉断言可以看做与原有MLLM的回答以及输入图片相关的视觉知识库;

幻觉修正: 基于前面得到的,使用大语言模型对MLLM的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

实验效果

实验选取了几个典型的MLLM作为基线,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4 论文中首先测试了Woodpecker在面对目标幻觉时的修正能力,在POPE验证集的实验结果如下表所示:

怎么让幻觉降低30%?

结果表明在不同的MLLM上应用Woodpecker修正后,均有不同程度的提升。在随机设定下,Woodpecker给MiniGPT-4和mPLUG-Owl和在准确率指标上分别带来了30.66%和24.33%的提升。

此外,研究者还应用更全面的验证集MME,进一步测试Woodpecker在面对属性幻觉时的修正能力,结果如下表所示:

怎么让幻觉降低30%?

从表中可见Woodpecker不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现。LLaVA的颜色得分从78.33分大幅提升到155分!经过Woodpecker修正后,四个基线模型在四个测试子集上的总分均超过500分,在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现,更直接的方式是使用开放评测。不同于以往将图片转译后送入纯文本GPT-4的做法,文章利用OpenAI最近开放的视觉接口,提出使用GPT-4(Vision)对修正前后的图片描述直接对下列两个维度进行打分:

  • 准确度:模型的答复相对于图片内容是否准确
  • 详细程度:模型答复的细节丰富度

在该实验条件下,实验结果如下表所示:

怎么让幻觉降低30%?

结果表明经过Woodpecker修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。另一方面,Woodpecker修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。GPT-4V辅助的评测样例如下图所示:

怎么让幻觉降低30%?

感兴趣的读者,可以读论文进一步了解更多内容。

  • 论文地址: https://arxiv.org/pdf/2310.16045.pdf
  • 项目地址: https://github.com/BradyFU/Woodpecker


怎么让幻觉降低30%?

我是朋克又极客的AI算法小姐姐rumor北航本硕,NLP算法工程师,谷歌开发者专家欢迎关注我,带你学习带你肝一起在人工智能时代旋转跳跃眨巴眼

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...