J. Chem. Inf. Model. | ChatGPT 生成的内容与化学领域数据相似性指数

1,182次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

天为大家介绍的是来自 Deep Kumar Kirtania的一篇论文。

J. Chem. Inf. Model. | ChatGPT 生成的内容与化学领域数据相似性指数

近年来,自然语言处理和机器学习的进步导致了像ChatGPT这样功能强大的语言模型的发展。这些基于GPT-3.5架构的模型旨在理解和生成类似人类的文本响应。尽管这些模型已广泛用于各种应用,但它们在化学领域及其子领域的潜力仍未得到充分探索。通过利用该领域中丰富的知识和数据,ChatGPT有潜力帮助研究人员、学生和专业人员获取相关信息、解决问题并促进科学交流。ChatGPT有可能彻底改变我们在化学及其子学科领域中获取和互动科学知识的方式。生成的内容可以涵盖有机化学、无机化学、分析化学、物理化学、生物化学等广泛的主题领域。已经有一些关于化学和ChatGPT的论文发表,例如药物发现、教学学习、计算化学等。ChatGPT可以用于快速、易于访问地提供有关化学各个方面的信息,可能成为研究人员、学生和专业人员的宝贵工具。此外,ChatGPT可以用更简单的语言解释化学概念,帮助学生更好地理解复杂的主题,可能有助于解决问题。ChatGPT适用于多样的数据集,包括科学交流,从而可以使用与化学相关的技术术语和行话,有助于生成与特定查询相关的上下文相关响应。因此,评估ChatGPT在化学领域生成的内容的准确性和可靠性需要适当的评估方法,以衡量生成内容的质量,如检查其相似性。因此,作者研究的目标是调查ChatGPT在生成与化学相关的内容方面的能力,并检查相似性指数以评估生成响应的质量和准确性。

方法使用

J. Chem. Inf. Model. | ChatGPT 生成的内容与化学领域数据相似性指数

表 1

首先,通过三种标准且全球知名的受控词汇工具,如杜威十进分类法(DDC)系统、西尔斯主题标题列表和美国国会图书馆主题标题(LCSH),选择了化学及其相关学科。利用这些工具,在排除重复或常见学科的情况下,共选择了20个较大的学科用于研究(学科按字母顺序列于表1中)。随后捕捉每个术语,通过ChatGPT生成内容,然后使用三种主要的抄袭检测软件来检查该内容,以找到相似性指数。最后,通过表格分析相似性检查或抄袭报告,得出研究结果和结论。

实验结果

J. Chem. Inf. Model. | ChatGPT 生成的内容与化学领域数据相似性指数

表2

表2呈现了用于检查不同来源相似性的软件程序的表格列表。

(I)iThenticate显示相似性指数为12%,表明ChatGPT生成的约12%内容与现有来源具有相似之处。在检查的168个段落中,有75个段落被发现具有匹配内容,而93个段落没有任何匹配的内容。

(II)Urkund显示较低的相似性指数为1%,表明ChatGPT生成的内容与现有来源之间具有最小的相似之处。在168个段落中,只有23个段落被发现具有匹配内容,而大多数段落(145个)没有显示任何匹配的内容。

(III)Turnitin报告相似性指数为5%,表明ChatGPT生成的内容与现有来源之间存在适度的相似之处。在168个段落中,有37个段落被确定为匹配内容,而131个段落没有显示任何相似性。

(IV)Subject-wise分析(见表1)提供了关于ChatGPT生成内容与不同化学领域现有来源之间相似性的见解。这些抄袭软件获得的结果表明,ChatGPT生成的内容与现有来源之间的相似性程度各不相同。与Urkund相比,iThenticate和Turnitin显示出较高的相似性指数。主题领域的观察显示,具有更多发表文献的化学子领域显示出较高的相似性指数。相反,化学的较不传统的子学科,如农业化学、生物化学、植物化学、临床化学、微化学,或者发表文献较少的子学科,显示出较低的相似性指数得分。

从相似性指数的来源可以看出,ChatGPT生成的内容主要依赖于互联网资源,包括各种类型的网站。值得注意的是,抄袭检测报告表明,相似之处主要存在这些在线资源的句子和段落中。ChatGPT有时倾向于直接从输入查询或提示中提取信息,这可能导致文本重叠,因为ChatGPT适用于广泛的文本范围,包括技术和科学出版文献,这可能会影响其回答。需要注意的是,这些百分比只提供了相似性的定量测量,进一步的分析需要确定匹配的性质和上下文。

主要发现

(一)不同化学领域的相似性指数有所不同。一些领域显示较高的相似性指数,表明存在更多的匹配内容,而其他领域则显示较低的相似性,表明与现有来源的相似性较小。

(二)在所分析的领域中,有机化学在所有三个抄袭检测软件中显示出最高的相似性指数,iThenticate报告有七个匹配的段落,Urkund报告有一个匹配的段落,Turnitin报告有两个匹配的段落。

(三)微化学、矿物学和理论化学在所有三个抄袭检测软件程序中显示出最低的相似性指数,要么没有匹配的段落,要么只有很少的匹配段落。

(四)不同的抄袭软件获得的结果存在差异。例如,与许多学科相比,iThenticate通常会报告更多的匹配段落,相对于Urkund和Turnitin。

(五)一些学科在不同的抄袭检测工具中存在匹配段落的不一致性。例如,无机化学的结果存在差异,iThenticate和Turnitin报告有六个匹配的段落,而Urkund没有发现任何匹配的段落。

(六)总体而言,所有学科的匹配段落的百分比相对较低,表明ChatGPT生成的内容通常与现有来源没有大的相似性。

结论

总之,通过使用各种抄袭检测软件程序对ChatGPT生成的内容进行基于学科的相似性指数分析,揭示了一些重要的发现。ChatGPT生成的内容在化学领域的不同学科中,与现有来源的相似性水平相对较低,大部分段落没有显著的匹配。相似性指数在不同学科之间存在变化。不同抄袭检测软件获得的结果存在不一致性。虽然相似性指数提供了相似性的定量度量,但进行手动检查和上下文分析以确定ChatGPT生成的内容的适当性、原创性和准确性至关重要。抄袭检测软件应该作为与手动评估相辅相成的工具,以便就ChatGPT生成的内容的质量和原创性做出明智的判断。基于这些发现,可以得出结论,ChatGPT适用于化学及其子学科的全面数据集,它有潜力生成与现有来源有限相似性的内容。未来的研究和自然语言处理模型的改进可以进一步提高生成内容的可靠性和可信度,扩大在化学领域科学交流和知识传播的可能性。

参考资料

Kirtania, D. K. (2023). ChatGPT Generated Content and Similarity Index in Chemistry & Allied Sciences.

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...