Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台

1,029次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Christoph Steinbeck团队的一篇论文。近几十年来,描述化学结构的出版物数量稳步增加。然而,目前大多数已发布的化学信息并未以机器可读的形式出现在公共数据库中。自动化信息提取的过程仍然是一个挑战,需要减少手动干预,特别是在挖掘化学结构图时。作为一个开源平台,DECIMER.ai(Deep lEarning for Chemical IMagE Recognition)充分利用了深度学习、计算机视觉和自然语言处理的最新进展,旨在自动分割、分类和翻译印刷文献中的化学结构图。

Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台

化学信息以结构化数据格式和开放数据库的形式可用,不仅使化学领域的研究人员受益,还使使用化学信息的科学领域,如医学、药学、材料科学、分子生物学等等受益。尽管存在大量努力来建立研究数据管理基础设施以及开放数据库和存储库,但大多数化学信息仍然以人类可阅读的文本和图像格式独家发布在文献中。从化学文献中手动提取信息是一项耗时且容易出错的过程,只有在投入大量人力资源的情况下,才能获得深度学习应用所需的大量数据。我们将包含化学结构图的图像翻译成机器可读的表示称为光学化学结构识别(OCSR)。近年来,随着计算机视觉和自然语言处理的显着进展,基于深度学习的OCSR工具已经得到了发展。在为数不多的开源OCSR软件解决方案中,没有系统将化学结构图像分割、分类和翻译结合在一个综合性工作流程中。作者介绍DECIMER.ai,这是一个开源平台,用于在科学文献中识别、分割和识别化学结构图示,旨在解决这一不足。

模型概要

Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台

图 1

DECIMER图像分类器和DECIMER图像转换器,与DECIMER分割组合在一起,实现了对科学文献中化学结构的自动提取和解释的综合工作流程(见图1)。结合了所有这些组件的完整工作流程可作为一个带有用户界面的Web应用程序提供。DECIMER图像转换器在基准测试中,正确预测的百分比最高,平均分子(Tanimoto)相似性也最高,超过了所有测试工具。对于化学结构图示,DECIMER图像分类器是第一个公开可用的分类系统,而DECIMER分割是唯一公开可用的分割应用程序。DECIMER Web应用程序是唯一将这些功能组合在一起的开源系统,形成了一个全面的化学数据提取系统。

实验效果

DECIMER.ai的关键组成部分是DECIMER Image Transformer OCSR工具。由于在训练数据中使用了具有不同描述特征的多种化学结构,并采用了详尽的图像增强策略,该应用程序产生了稳健的结果,并能够解释马卡什结构以及常见的功能基团和超原子缩写。

Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台

图 2

训练模型在包含每个250,000张图像的四个不同领域内测试数据集上进行了测试。这些测试数据集与训练数据集类似生成,但不包含来自训练数据的任何分子。为了性能评估,使用了两种不同的指标:与正确分子完全相同的预测被认为是最佳评价结果,当然了。但与正确分子非常相似的预测也对化学数据非常有用。为了评估分子结构的相似性,作者使用了Tanimoto相似性,并将相似性表示为0.0到1.0之间的数字。

在所有的测试结果中,DECIMER Image Transformer始终产生平均Tanimoto相似性大于0.95的结果(图2)。与持续高Tanimoto相似性相对立的是,完美预测的数量方面存在明显差异。随着结构描述的复杂性和噪音水平的增加以及图像分辨率的降低,完美预测的分子比例减少。这里有两个明显的趋势:(1)增加图像增强会导致完美识别结构的比例降低。(2)在处理仅包含马卡什结构的测试数据集时,完美识别分子的比例较低。这些结果并不令人意外,因为R基和其他标签在图像分辨率较低或引入额外噪音时可能难以识别。尽管如此,持续高的Tanimoto相似性表明,预测的分子与描绘的分子非常相似,即使预测不是完美的。

Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台

图 3

Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台

图 4

Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台

表 1

Nat. Commun. | 一个用于在科学出版物中进行化学结构的自动光学识别、分割和识别的开放平台

表 2

为了评估DECIMER图像转换器模型与其他公开可用的工具(请参见表1和表2)的性能比较,使用了来自各种来源的一系列基准数据集。与其他开放的OCSR工具相比,DECIMER图像转换器在大多数基准数据集上取得了竞争性的结果(图3)。此外,基于规则的系统无法正确识别低分辨率图像中的结构描述(请参见表2中的USPTO_big和Indigo)。对于机器学习应用程序,适当评估失败率非常重要(图3C/3D):与Img2Mol和MolScribe一致,DECIMER图像转换器表现出极低的失败率。DECIMER图像转换器模型从未在手写化学结构描述上进行过训练。然而,对于仅包含手绘化学结构的基准数据集,它可以完美识别27%的结构,并实现了0.69的平均Tanimoto相似性,而所有其他开放工具的表现都更差。此外,当模型与包含增强的图像的训练数据集进行微调,使它们看起来像手绘图像时(请参见图4),完美预测的比例显著增长到60%(增加了33%),对应着平均Tanimoto相似性显著增加了0.2,达到0.89。

结论

DECIMER.ai网络应用是第一个综合性的开源用户界面应用程序,用于从科学文献中提取化学信息。DECIMER图像转换器可以将化学结构描述翻译成高度相似的形式。通过将其嵌入DECIMER.ai应用程序中,人类可以立即评估预测结果,如有必要,可以在分子编辑器窗口中进行修正。

参考资料

Rajan, K., Brinkhaus, H.O., Agea, M.I. et al. DECIMER.ai: an open platform for automated optical chemical structure identification, segmentation and recognition in scientific publications. Nat Commun 14, 5045 (2023). 

https://doi.org/10.1038/s41467-023-40782-0

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了

10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了 一水 2025-12-12 13:56:19 ...
IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别 量子位的朋友们 2025-1...