GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

1,314次阅读
没有评论

GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

  新智元报道  

编辑:Mindy

【新智元导读】斯坦福的一篇案例研究表示,提交给AI会议的同行评审文本中,有6.5%到16.9%可能是由LLM大幅修改的,而这些趋势可能在个体级别上难以察觉。

LLM在飞速进步的同时,人类也越来越难以区分LLM生成的文本与人工编写的内容,甚至分辨能力与随机器不相上下。这加大了未经证实的生成文本可以伪装成权威、基于证据的写作的风险。尽管在个例上难以察觉,但由于LLM的输出趋于一致性,这种趋势可能会放大语料库级别的偏见。基于这一点,一支来自斯坦福的团队提出一种方法,以此来对包含不确定量的AI生成文本的真实世界数据集进行可比较的评估,并在AI会议的同行评审文本中验证。

GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

论文地址:https://arxiv.org/abs/2403.07183

AI会议的同行评审可能是AI?

同行评审是一种学术论文发表前的质量评估机制。这些同行评审者通常具有相关领域的专业知识,他们会对论文的原创性、方法学、数据分析、结果解释等进行评价,以确保论文的科学性和可信度。斯坦福团队研究的AI会议包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023,他们的研究发生在ChatGPT发布之后,实验观察估计LLM可能会显著修改或生成的大语料库中的文本比例。结果显示,有6.5%到16.9%可能是由LLM大幅修改的,即超出了拼写检查或微小写作更新的范围。在下图中,可以看到ICLR 2024同行评审中,某些形容词的频率发生了显著变化,例如「值得称赞的」、「细致的」和「复杂的」,它们在出现在句子中的概率分别增加了9.8倍、34.7倍和11.2倍。而这些词大概率是由人工智能生成的。GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成同时研究还发现,在报告较低自信度、接近截稿时间以及不太可能回应作者反驳的评论中,LLM生成文本的估计比例较高。

最大似然让LLM现形


因为LLM检测器的性能不稳定,所以比起尝试对语料库中的每个文档进行分类并计算总数,研究人员采用了最大似然的方法。研究方法主要分成四个步骤:1. 收集(人类)作者的写作指导——在这个情况下是同行评审指导。将这些指导作为提示输入到一个LLM中,生成相应的AI生成文档的语料库。2. 使用人类和AI文档语料库,估算参考标记使用分布P和Q。3. 在已知正确比例的AI生成文档的合成目标语料库上验证方法的性能。4. 基于对P和Q的这些估计,使用最大似然法估算目标语料库中AI生成或修改文档的比例α。GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成上图对方法进行了流程可视化。研究人员首先生成一个具有已知科学家或AI作者身份的文档语料库。利用这些历史数据,我们可以估算科学家撰写的文本和AI文本的分布P和Q,并验证我们方法在留存数据上的性能。最后,使用估算的P和Q来估算目标语料库中 AI 生成文本的比例。在验证集中,该方法在LLM生成反馈比例方面表现出高精度,预测误差不到2.4%。同时,团队对鲁棒性也进行了验证。GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成另外,一位审稿人可能会分两个不同阶段起草他们的审稿意见:首先,在阅读论文时创建审稿的简要大纲,然后使用LLM扩展这个大纲以形成详细、全面的审稿意见。在这种场景的验证中,算法仍旧表现出色,能够检测到LLM用于大幅扩展由人提供的审稿大纲的情况。

GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

实验结果中还发现了什么首先,团队将AI会议的同行评审和Nature Portfolio期刊的α进行了比较。与AI会议相反,Nature Portfolio期刊在ChatGPT发布后没有显示出估计α值的显著增加,ChatGPT发布前后的α估计值仍在α = 0验证实验的误差范围内。GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成这种一致性表明,在与机器学习专业领域相比,广泛的科学学科对AI工具的反应有明显的不同。除了发现同行评审文本中,有6.5%到16.9%来自于LLM的手笔之外,该研究还发现了一些有意思的用户行为,在四个AI会议里保持一致:1. 截至日期效应:在审稿截止日期前3天内提交的评审往往更倾向于用GPTGPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成2. 参考文献效应:包含「et al.」一词的评审,即有学术引用的评审,更不会用GPTGPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成3. 回复率降低效应:审稿讨论期间,审稿人回复数量越多,评审更不会用GPTGPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成4. 同质化效应:与同论文其他审稿意见越相似的评审,越可能用GPTGPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成5. 低置信度效应:自评置信度在5分制度中为2分或以下的评审与较高置信度(3分或以上)的评审相比,更可能用了GPTGPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成尽管这项研究存在一定的局限性,比如只涉及了四个会议、仅使用了GPT-4来生成AI文本,并且可能存在其他误差来源,比如由于主题和审稿人的变化而导致的模型时间分布的偏差。但是,研究的结论启示了LLM可能对科学界产生的潜在影响,这有助于激发进一步的社会分析和思考。希望这些研究结果能够促进对于LLM在未来信息生态系统中应该如何使用以及可能带来的影响的深入探讨,从而推动出台更加明智的政策决策。参考资料:https://arxiv.org/abs/2403.07183

GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...