Sci. China Life Sci. | 生物医药文献中化学信息的自动提取系统

553次阅读
没有评论

点评

不用chemdraw画分子,截图即刻识别;支持复杂天然产物的识别;可抵抗低分辨率、扭曲变形、无关字符、彩色背景等干扰;支持pdf批量自动定位自动识别

近年来,人工智能AI技术从生物医数据库中学习知识方面已经取得了巨大进展,革新了许多领域的研究,如蛋白质结构预测和蛋白质设计。然而,有大量的生物医知识并没有以结构化数据形式存储在数据库中,而是隐藏在原始科学文献中。因此,直接从生物医文献中挖掘和学习知识是未来人工智能的一个重要应用场景在生物医文献中,化学结构信息主要通过软件或手工绘制的图像进行交流。与文本内容不同,此类图像内容的读取与检索非常困难。为了解决这个问题,在过去几十年中,一些基于规则或深度学习的光学化学结构识别(OCSR)工具已经开发了出来。他们理想条件下可能产生超过90%的准确率。但真实世界的文献往往存在一定程度的图像损坏和背景噪声这会显著降低这些OCSR模型的性能。至于旧文献中的手工绘制的化学结构,目前还没有OCSR工具对其显示出识别能力。


2021年,百时美施贵宝在Kaggle发起了一场分子翻译比赛,要求参与者开发数据驱动的工具来识别低质量的分子图像。中国科学院上海药物研究所郑明月团队SIMM DDDC)参加了此次比赛,并使用基于图像注释的方法获得了第一名祝贺|上海药物所DDDC团队摘取Kaggle分子翻译国际挑战赛冠军)。在此基础上研究团队继续改进了模型,使其能实现对真实世界文献中各种风格和带噪声的分子图像的翻译。此外,为了简化化学结构提取过程,研究团队进一步开发了一个目标检测模型,以自动检测文献中的分子图像。基于这两个模型,搭建αExtractor系统,用于文献中化学结构的自动提取αExtractor在常见基准数据集和自收集的数据集上都显著优于最先进的方法(1)。相关研究论文“αExtractor: a system for automatic extraction of chemical information from biomedical literature”已在Science China Life Sciences上发表


Sci. China Life Sci. | 生物医药文献中化学信息的自动提取系统

1.  αExtractor系统的架构和性能


αExtractor中,分子图像识别使用的是一个图像注释模型,包括一个残差神经网络,一个Transformer编码器和一个Transformer解码器。现有的基于图像注释的分子图像识别方法的一个局限在于它们只能预测分子的SMILES表示,而无法重建分子图。为了解决这个问题,研究团队设计了一种新的表示语言,将表示化学键类型的标记嵌入到了分子SMILES中。修改后的SMILES不仅包含原子类型和原子间性的信息,还包含精确的化学键类型信息,例如实心楔形键,交叉双键等。除了分子SMILES,分子图像识别模型还会预测原子的坐标。当模型生成分子的SMILES序列时,它会同时生成表示原子x轴和y轴坐标的两个序列。坐标序列的长度与SMILES序列相等,由坐标标记和填充标记组成。坐标序列中的坐标标记与SMILES序列中的原子标记对齐。基于模型预测的SMILES、原子坐标和化学键类型,即可以构建出与图像中分子完全一致的分子图,这使得我们能够快速判断模型预测的分子是否正确。研究团队使用PubChem数据库中分子的SMILES合成分子图像,以训练图像注释模型2。文献中分子图像的检测使用的是基于ResNet-Transformer架构的目标检测模型。该模型在合成和人工标注的PDF文档上进行训练,用于确定文献中的化学结构图像的位置。

Sci. China Life Sci. | 生物医药文献中化学信息的自动提取系统

图2. 生成分子图像的文本表示的过程的示意图


在这项工作中,研究团队结合图像注释,目标检测和合成计算机视觉等技术,开发了一个从文献中自动提取化学结构的深度学习系统。凭借着高的识别精度和处理速度,αExtractor有望助力于生物医药文献的自动化挖掘和数据驱动的分子设计。为了方便社区,αExtractor现在可以在网站上免费使用(https://extractor.alphama.com.cn/csr)。


中国科学院上海药物研究所的郑明月研究员的为本文的通讯作者,上海药物所博士研究生熊嘉诚、阿尔脉生物科技有限公司的刘小红博士和李召军博士为本文的共同第一作者。该研究得到了国家自然科学基金、临港实验室、国家重点研发计划的基金资助。

全文链接 https://www.sciengine.com/SCLS/doi/10.1007/s11427-023-2388-x

Sci. China Life Sci. | 生物医药文献中化学信息的自动提取系统

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy