全面评估ChatGPT的信息抽取能力:性能、可解释性、校准和忠实度的评估

1,735次阅读
没有评论

Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness
全面评估ChatGPT的信息抽取能力:性能、可解释性、校准和忠实度的评估

解决问题

本文聚焦于ChatGPT在各种信息抽取任务上的系统性评测。针对于7个细粒度信息抽取任务和14个数据集,从模型性能、可解释性、校准度和忠实度这四个角度,设计了15个指标(10个从ChatGPT自动获取的指标,5个领域专家标注的指标),对ChatGPT进行了全面评估。实验结果表明,ChatGPT在标准IE设置下,性能与有监督模型有很大差距。但是,ChatGPT在OpenIE的场景下输出非常符合人类预期。同时,通过领域专家标注表明,ChatGPT可以对自己的预测结果给出可靠的解释,这表明ChatGPT有极强的解释能力。但是ChatGPT会对自己的预测过度自信,给出非常高的预测置信度,从而导致较低的校准度。最后,本文还验证了ChatGPT的决策非常忠实于原文,即不会通过虚构来解决或者解释问题。本文说明,ChatGPT在信息抽取领域仍然有很多的改进角度和提升空间。
 
其他亮点

本文通过ChatGPT对7个细粒度信息抽取任务共14个数据集进行了性能测试和系统评估,并发布了代码和标注数据集,以进一步推动相关研究。值得注意的是,本文发现ChatGPT在标准信息抽取设置下表现欠佳,而OpenIE设置下表现出色,并且对自己的预测结果具有很强的可解释性和对输入原文的忠实度,然而会出现预测过度自信的问题。这些结论都为信息抽取领域提供了新的研究思路。

关于作者

Bo Li, Gexiang Fang, Yang Yang, Quansen Wang, Wei Ye, Wen Zhao, Shikun Zhang

北京大学知识计算实验室(KCL)

项目信息:

代码和标注数据集已经开源在:

https://github.com/pkuserc/ChatGPT_for_IE 

文章链接:https://arxiv.org/abs/2304.11633

全面评估ChatGPT的信息抽取能力:性能、可解释性、校准和忠实度的评估

论文摘要

本文主要评估了ChatGPT这种大型语言模型在信息提取方面的能力,作者使用了7个细粒度的信息提取任务来评估ChatGPT的性能、可解释性、校准度和可信度。作者发现,在标准信息提取设置下,ChatGPT的性能较差,但在开放式信息提取设置下表现出色,且其决策的解释具有高质量和可信度。不过,ChatGPT存在过度自信的问题,导致其校准度较低。

此外,ChatGPT在大多数情况下对原始文本的忠实度很高。最后,作者手动注释并发布了7个细粒度信息提取任务的测试集,包含14个数据集,以进一步促进研究。

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...