Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

1,551次阅读
没有评论

蛋白质功能注释一直是生物学面临的关键挑战之一,在指导新型药物靶标发现中具有重要作用。然而,当前方法在注释那些仅有少量蛋白的功能家族时,仍面临“长尾问题”的严峻挑战。针对此问题,浙江大学药学院朱峰教授与阿里云李兆融工程师组成联合研发团队,在国际权威期刊Genome Biology发表研究工作,提出了一种名为AnnPRO的基于序列的多尺度蛋白质表征和混合深度学习框架的蛋白质功能注释新策略。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

研究背景

蛋白质是生命的基本组成单位,它们的功能决定了生物体的结构和活动。然而,目前只有很少一部分的蛋白质的功能是通过实验方法得到验证的,大量的蛋白质的功能还是未知的。因此,如何利用计算方法来预测蛋白质的功能,是生物学领域的一个重要而又困难的问题。

目前,已经有许多计算方法被开发出来,用于预测蛋白质的功能。这些方法主要可以分为两类:一类是基于序列相似性的方法,它们通过比较蛋白质的序列,来推断它们的功能;另一类是基于机器学习的方法,它们通过学习蛋白质的特征,来预测它们的功能。然而,这些方法都存在一个共同的问题,就是在预测那些功能类别较少的蛋白质时表现不佳。这是因为蛋白质在不同的功能家族中的分布是不均匀的,有些功能类别的蛋白质很多,而有些功能类别的蛋白质很少。这种数据分布导致了一个“长尾问题”,即少数的“头部”功能类别占据了大部分的蛋白,而大量的“尾部”功能类别只占据了少数的蛋白。这种“长尾问题”使得现有的方法在训练过程中,往往忽略了“尾部”功能类别的信息,导致它们在预测时,对蛋白的“尾部”功能的预测准确度很低。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

图1. 蛋白质GO层级及数量

模型框架

为了解决蛋白功能预测中的“长尾问题”,一种新的蛋白功能预测方法AnnoPRO被提出。AnnoPRO的核心思想是利用多尺度的蛋白质表征方式,双路径的蛋白质编码网络,和基于LSTM的蛋白质解码模型,来实现对蛋白质功能的预测。具体来说,AnnoPRO首先将蛋白质的序列转换为两种不同的表示形式:一种是基于特征相似性的图像,它能够捕捉蛋白质特征之间的内在关联;另一种是基于蛋白质相似性的向量,它能够考虑蛋白质序列之间的全局关联。然后,AnnoPRO利用一个双路径的编码网络,分别对这两种表征进行编码,得到蛋白质的特征向量。这个编码网络是基于预训练的,即利用已知的蛋白质功能注释数据,来优化网络的参数。最后,AnnoPRO使用一个基于LSTM的解码网络,将蛋白质的特征向量作为输入,输出蛋白质的功能类别。这个解码网络是基于多标签的,即可以同时预测蛋白质属于多个功能类别的概率。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

图2. AnnoPRO深度学习混合模型框架

模型效果

为了验证模型性能,研究者们使用了多个基准数据集,来与现有的方法进行比较。结果表明,AnnoPRO在所有的功能类别(生物过程,分子功能,细胞组分)上,都取得了最好的预测效果,显著优于其他的方法。特别是在“尾部”功能类别上,AnnoPRO的预测准确度有了显著的提升,达到了解决“长尾问题”的目标。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

图3. AnnoPro 在不同层级上的性能比较

此外,AnnoPRO还能够成功地捕捉到由于序列变异导致的蛋白质功能变化,例如生长分化因子(GDFs)和热休克蛋白(HSPs)等。如下图所示,GDF8和GDF11之间只有三个氨基酸的差异,导致GDF8具有肝素(herprin)结合功能(GO:0008201),而GDF11的变异残基使其无法与FS288交互,因此失去了这一功能。AnnoPRO可以成功预测两种GDFs的所有GO家族。

Genome Biol. | 基于多尺度蛋白表征和混合深度学习框架的蛋白质功能注释新方法

图 4. 不同方法在GDFs的功能预测结果

AnnoPRO是一种基于深度学习的蛋白质功能注释新方法,它能够充分利用蛋白质序列的信息,提高蛋白质功能的预测能力。AnnoPRO的研究成果,为蛋白功能预测领域提供了一个新的思路和方法,也为相关的生物学研究,如新药靶点的发现,疾病机理的揭示等,提供了有力的支持。

参考资料

Zheng, L., Shi, S., Lu, M. et al. AnnoPRO: a strategy for protein function annotation based on multi-scale protein representation and a hybrid deep learning of dual-path encoding. Genome Biol 25, 41 (2024). https://doi.org/10.1186/s13059-024-03166-1

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...