Brief. Bioinform. | 张贵军课题组开发新模型准确评估蛋白质单链和复合物预测模型质量精度

蛋白质在调控生命体各个关键过程中扮演着不可或缺的角色，是生命体重要的组成部分。尽管科学家们在过去60年中付出了巨大的努力，成功解析了二十余万蛋白质的结构，但由于生物实验的耗时和高昂成本，实验解析的结构仅占已知两亿多蛋白质序列数量的0.1%！为此，通过计算方法实现高效且准确的大规模蛋白质结构预测成为计算生物学家们长期努力的方向。随着深度学习技术在该领域的广泛应用，蛋白质结构预测领域得到飞速发展。其中，DeepMind和Meta研究团队基于AlphaFold2和ESMFold方法分别构建了预测的结构模型数据库AlphaFold Protein Structure Database（约2亿）和ESM Metagenomic Atlas（约7亿）。毫无疑问，AlphaFold2最终将产生许多实现，甚至有可能来自其他实验室所研发的性能更优竞争方法。2022年CASP15评测结果表明，目前已经出现了一些比标准AlphaFold2性能更好的预测算法版本（虽然绝大多数是基于AlphaFold2的改进版本）。因此，如何设计独立于AlphaFold2中内置模型置信度的模型精度评估方法，并从这些改进版本所产生的一批模型中，选出一个或若干个“最好的”模型，将有助于加速生物湿实验室分析和验证速度，极大地提升靶标发现和药物设计的效率。

随着结构预测领域的不断进步，涌现出许多用于评估蛋白质模型质量的方法。特别是在深度学习技术的引领下，通过端到端的模型（单模型）质量评估方式揭示结构与质量之间的机理受到了越来越多的关注和深入研究。然而，现有方法在一定程度上忽略了序列信息与结构之间的映射关系对结构与质量内在联系的潜在影响。同时，随着单链结构预测方法显著进展，复合物结构预测及其模型质量评估成为当前生物信息学领域亟待解决的前沿科学和工程问题。通过挖掘蛋白质序列、结构和模型质量之间的内在关联，开发出新的蛋白质复合物质量评估方法，将有望为模型质量评估领域提供新的研究思路，为结构预测领域提供有益的技术支撑条件，进一步为生物学机制研究提供重要的可靠性依据。

近日，浙江工业大学张贵军教授课题组等团队合作在生物信息学领域期刊《Briefings in Bioinformatics》上在线发表了题为《Assessing protein model quality based on deep graph coupled networks using
protein language model》的研究论文（图1）。张贵军教授课题组的研究团队在之前开展的基于超快形状识别（USR）蛋白质模型评估方法DeepUMQA（Bioinformatics, 2021）、基于序列和结构知识增强的蛋白质模型质量评估方法DeepUMQA2（Briefings in Bioinformatics，2022）、蛋白质复合物模型质量评估服务器DeepUMQA3（Bioinformatics, 2023）、基于等变图神经网络的蛋白质结构全局打分模型方法GraphGPSM（Briefings in Bioinformatics，2023）等工作基础上，进一步提出了基于深度图耦合网络语言模型的蛋白质模型质量评估方法GraphCPLMQA。该工作融合从蛋白质语言模型中学习到的潜在序列信息与模型结构知识，推断出蛋白质复合物残基级的模型质量，建立序列、结构与质量的关联，达到模型的准确性精度评估的目的。浙江工业大学信息工程学院张贵军教授为该论文通讯作者，张贵军教授课题组的刘栋博士生、张彪博士为论文共同第一作者。