PNAS | ChatGPT在文本标注任务中表现优于众包工作者

1,171次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Fabrizio Gilardi的一篇讨论chatgpt能力的论文。许多自然语言处理(NLP)应用需要进行手动文本标注,用于训练分类器或评估无监督模型的性能,这是一个常见的任务。根据任务的规模和复杂程度,这些任务可能由众包工作者在MTurk等平台上进行,也可能由经过培训的标注员,比如研究助理,来完成。作者使用包含六千一百八十三个样本的四个推文和新闻文章数据集,展示了ChatGPT在多个标注任务中的表现优于众包工作者。在这四个数据集上,ChatGPT的零样本准确率平均超过众包工作者约25个百分点,同时ChatGPT的标注员间一致性在所有任务上均超过众包工作者和经过培训的标注员。此外,ChatGPT每个标注的成本不到0.003美元,比MTurk便宜约30倍。这些结果表明大型语言模型的潜力,能够大幅提高文本分类的效率。

PNAS | ChatGPT在文本标注任务中表现优于众包工作者

文章探讨了大型语言模型(LLMs)在文本注释任务中的潜力,重点关注ChatGPT,该模型于2022年11月发布。研究表明,ChatGPT的零样本分类在成本的一小部分下优于MTurk的标注。LLMs已被证明在各种用途上表现非常出色,包括意识形态尺度、立法提案的分类、认知心理学任务的解决以及用于调查研究的人类样本的模拟。虽然一些研究表明ChatGPT可执行描述的文本注释任务,但作者的工作提供了系统性的评估。

实验部分

PNAS | ChatGPT在文本标注任务中表现优于众包工作者

图 1

作者使用了四个数据集(n = 6,183),包括作者在以前的关于内容审查话语的研究中手动收集和注释的推文和新闻文章,以及2023年发布的新样本,以解决ChatGPT可能依赖于在模型的训练数据集中潜在包含的文本的记忆问题。作者依赖于经过训练的标注员(研究助理)来建立六个概念类别的标准:推文与内容审查问题的相关性(相关/不相关);推文与政治问题的相关性(相关/不相关);对美国互联网法规Section 230的立场(保留/废除/中立);主题识别(六个类别);第一组框架(内容审查作为问题、解决方案或中立);第二组框架(十四个类别)。然后作者使用ChatGPT和在MTurk上招募的众包工作者进行了完全相同的分类,使用了为研究助理开发的相同编码手册。对于ChatGPT,作者进行了四组注释。为了探索ChatGPT温度参数的影响,该参数控制输出的随机程度,作者使用默认值1和值0.2进行了注释,其中值0.2表示更少的随机性。对于每个温度值,作者进行了两组注释来计算ChatGPT的编码者一致性。对于MTurk,作者旨在选择高质量的众包工作者,尤其是筛选那些被亚马逊评为“MTurk大师”的工作者,他们的批准率超过90%,并且位于美国。

在这四个数据集中,作者报告了ChatGPT的zero-shot性能的两个不同指标:准确率和编码者一致性(图1)。准确率是以正确标注的百分比来衡量的,而编码者一致性是根据两个不同标注者对同一推文所分配相同标签的百分比来计算的。关于准确率,图1显示在这四个数据集中,ChatGPT在大多数任务上表现优于MTurk。平均而言,ChatGPT的准确率比MTurk高出约25个百分点。此外,考虑到任务的挑战性、类别数量和zero-shot注释,ChatGPT整体上表现出足够的准确率。针对只有两个类别(相关/不相关)的相关性任务,ChatGPT在内容审查推文中的准确率为70%,在内容审查新闻文章中为81%,在美国国会推文中为83%,在2023年内容审查推文中为59%。

关于编码者一致性,图1显示ChatGPT的性能非常高。平均而言,MTurk的编码者一致性约为56%,经过训练的标注员为79%,温度为1的ChatGPT为91%,温度为0.2的ChatGPT为97%。编码者一致性与准确性之间的相关性是正相关的。这表明对于注释任务,较低的温度值可能更可取,因为它似乎可以在增加一致性的同时保持准确性。作者强调,对ChatGPT进行的测试是困难的。作者的任务最初是在以前的研究的背景下进行的,并需要相当多的资源。作者为特定的研究目的开发了大多数概念类别。此外,一些任务涉及大量的类别,并表现出较低的编码者一致性水平,这表明注释难度较高。ChatGPT的准确性与经过训练的标注员的编码者一致性呈正相关,这表明在更容易的任务中表现更好。相反,ChatGPT相对于MTurk的优势与经过训练的标注员的编码者一致性呈负相关,这可能表示对于更复杂的任务表现更为优越。作者得出结论,考虑到其注释是zero-shot的,ChatGPT的性能令人印象深刻。

结论

本文展示了大型语言模型(LLMs)在改变许多研究项目常见的多种文本注释任务的潜力。证据在不同类型的文本和时间段上保持一致,表示ChatGPT可能已经是与MTurk等平台上的众包注释相比更优越的方法。至少,这些发现表明有必要更深入地研究LLMs的文本注释性能和能力。以下问题似乎特别有前景:i)在多种语言上的性能;ii)实现少样本学习;iii)构建半自动化数据标注系统,模型从人类标注中学习,然后推荐标注程序;iv)使用思维链提示和其他策略来提高零样本推理的性能;v)比较不同类型的LLMs。

参考资料

Gilardi, F., Alizadeh, M., & Kubli, M. (2023). Chatgpt outperforms crowd-workers for text-annotation tasks. arXiv preprint arXiv:2303.15056.

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...