长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

1,458次阅读
没有评论

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型的幻觉问题,又有新的解决方法了!

Meta AI实验室提出了一种“分而治之”的解决方案。

有了这个方案,Llama-65B输出的信息准确率提升了一倍,甚至超过了ChatGPT

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

所谓大模型幻觉,就是输出一些看似合理但完全不对的内容。

Meta此次提出的“验证链”(CoVe),是与“思维链”(CoT)相似的一种链式方法

区别在于,“step-by-step”的思维链更关注逻辑推理,而验证链更注重事实信息

有网友看了之后发现,这个验证链很像是自己用ChatGPT写代码时的一种科学方法:

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

那么“验证链”究竟是个什么方法,“验证”的又是什么呢?

拆解答案,分而治之

验证链的核心思想,是把要验证的一大段内容,拆解成一个个小的问题,具体流程是这样的:

首先,模型会根据用户提出的问题照常生成回复。

接着,根据生成的回复内容,针对其中的各项信息,生成一系列的验证问题。

然后让模型自行回答其所提出的这些问题,并根据结果对初始答案进行调整,得到最终结果。

举个简单的例子,假如想询问模型19世纪美墨战争的主要原因是什么。

模型回答了事件发生的时间,以及在这之前都发生了什么事。

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

之后针对这一系列事件,逐一询问它们是什么时候发生的。

于是,模型发现自己提到的一项内容时间相差太远,调整后给出了最终的答案。

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

其中,问题的生成和验证是最关键的一环,对此,研究人员一共提出了四种具体的方式:

  • Joint,即将生成问题和回答的指令写入同一段提示词

  • 2-Step,即先让模型生成提问,然后开启新的对话(一次性)回答提出的问题

  • Factored,在2-Step的基础上,对提出的每一个问题分别开启新对话

  • Factor+Revise,在Factored的基础之上加入一致性检验,让模型重点关注前后不一致的内容

这四种模式越来越细化,准确率也是越来越高。

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

从红色开始,四种颜色依次代表无CoVe、Joint、Factored和Factor+Revise

那么为什么拆分提问就能提高模型的准确性呢?

首先是因为拆解后的问题比整体任务更容易,论述题变成了问答甚至选择、判断题,问题简单了,准确率也就提升了

此外,把问题分解可以让模型真正重新思考,而不是反复地重复错误答案

那么,验证链方式的效果究竟如何呢?

信息准确率超过ChatGPT

为了探究这一问题,研究人员用Llama进行了测试,测试任务一共有三项。

首先是信息列举,比如列举出出生于某地、从事某行业的名人。

这项任务中,研究人员一共测试了两个数据集——简单一些的Wikidata和从难一些的Wiki-Category list(从维基百科中提取)。

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

结果发现,65B参数的Llama,在two-step模式的验证链加持下,简单问题的准确度从0.17提升到了0.36,增加了一倍还多,复杂问题准确度也接近翻番。

接下来是“闭域问答”题,研究人员从MultiSpanQA数据集中抽取多个不连续信息进行挖空提问。

比如“谁在哪一年创建了世界上第一家出版社”(答案是Johannes Gutenberg, 1450)。

结果,Cove也为Llama带来了20%左右的准确度提升。

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

第三项任务是“长段文本传记生成”,问题就是“Tell me a bio of (人名)”,使用FactScore数据集进行评价。

结果在Factor+Reviese模式下,准确率不仅比无验证链模式大幅提高,还超过了ChatGPT

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

对这项研究感兴趣的朋友,可以到论文中了解更多细节。

论文地址:
https://arxiv.org/abs/2309.11495

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法 

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动!点此了解详情

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...