ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

1,537次阅读
没有评论

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

编译 | 邓  可

审核 | 黄  锋

Part1摘要

今天给大家分享的是北京大学于2024年2月发表在Arxiv上的一篇论文:ProLLaMA:A Protein Large Language Model for Multi-Task Protein Language Processing。包括GPTx和LLaMA 2在内的大型语言模型(LLM)在多个自然语言处理(NLP)任务中取得了卓越的性能。在蛋白质序列构成蛋白质语言的前提下,在蛋白质语料库上训练的蛋白质大型语言模型(ProLLM)在从头生成蛋白质序列方面表现出色。然而,截至目前,与NLP中的LLM不同,没有ProLLM能够在蛋白质语言处理(PLP)领域的多个任务。因此当前ProLLM的固有局限性如下:(i)缺乏自然语言能力,(ii)指令理解不足,(iii)高培训资源需求。为了解决这些挑战,作者引入了一个框架,将任何普通的LLM转换为能够处理多个PLP任务的ProLLM。具体来说,该框架框架利用低秩自适应(LoRA),并采用两阶段训练方法,从而解决上述挑战,其特点是通用性、低开销和可扩展性。通过在这个框架下的训练,作者提出了ProLLaMA模型,这是第一个已知的同时处理多个PLP任务的ProLLM。实验结果表明,ProLLaMA在无条件蛋白质序列生成任务中取得了最好的结果;在可控蛋白质序列生成任务中,ProLLaMA可以设计出具有所需功能的新型蛋白质;在蛋白质性质预测任务中,ProLLaMA在许多类别上都达到了接近100%的准确率,后两个任务是其他ProLLM无法达到的。

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

Part2模型概述

模型的总体架构包括三个部分:1)LLaMA2框架通过在UniRef50数据集上持续学习蛋白质语言,从而产生ProLLaMA;2)通过在指令数据集上进行指令微调,使得ProLLaMA能够进行多任务处理;3)通过在自定义的数据集上再次进行指令微调,使ProLLaMA能够扩展到更多任务,如蛋白质属性预测等。作者提出了一个两阶段的训练框架来实现多任务PLP的ProLLM。在第一阶段,作者利用一个预训练的通用LLM(如LLaMA2)来不断学习蛋白质语言,同时保持模型的自然语言知识。在第二阶段中,通过指令微调在多任务PLP数据集上进一步训练模型,以使模型具有PLP的指令跟随能力和多任务能力。值得注意的是,在这两个阶段中,作者采用了低秩自适应(LoRA)来降低参数量,使得模型的成本减少。其在第一阶段中防止灾难性遗忘,在第二阶段中增强可扩展性并降低训练成本。

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

模型ProLLaMA框架的整体概述如图所示:

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

在这里,作者使用因果语言模型(CLM)来训练LLM,给定一个接受训练的token序列x,CLM可以被概念化为基于前面的i-1个token来预测第i个token。因此使用CLM训练LLM的公式为:

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

微调可以看作是一个寻找参数变化的过程,原始参数W0,微调后参数为W,目标为找到ΔW=W-W0,假设ΔW是低秩的,则能被分解为两个低秩矩阵,ΔW=AB,则:微调目标从寻找ΔW变为寻找A和B矩阵。

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

微调目标从寻找ΔW变为寻找A和B矩阵。

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

因此,训练中涉及的参数数量从dh减少到r(d+h),可训练参数数量的减少是相当显著的。在训练过程中,模型的原始参数被冻结,只有低阶适配器可训练。训练后,新获得的知识存储在低阶适配器中,即A和B。

Part3结果

首先作者将ProLLaMA模型与其他主流模型比较了从头生成蛋白质方面的能力,如图所示:

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

其中的评估指标的含义分别为:

pLDDT:衡量序列在结构上是否合理;

SC-Perp:衡量在结构无序区的合理性;

TM-score:生成序列与已知序列的结构相似性;

RMSD:从原子距离的角度反映结构相似性;

Hprob:同源性概率反映生成蛋白质与已知蛋白质同源的概率;

Ident:反映生成序列与已知序列的相似性。

可以看出作者的ProLLaMA在pLDDT、TM评分和RMSD指标上表现最佳,在SC-Perp中排名第二,表明ProLLaMA在从头蛋白质设计方面表现出色。

从头设计长且结构合理的蛋白质序列具有高度挑战性,因此,作者还做了对比实验,比较ProLLaMA与ESM-2模型在蛋白质序列长度变化时模型的效果。

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

可以看出,随着序列长度的增加,ProLLaMA生成的蛋白质的pLDDT不会降低,而是增加。相反,ESM2生成的蛋白质的pLDDT随着长度的增加而显著降低。这表明ProLLaMA能够捕获氨基酸之间的长程依赖性,而ESM2在长蛋白质序列的从头设计中面临困难。这些证明了ProLLaMA强大的序列生成能力,尤其是在生成长序列时具有更好的效果。

另外,在可控生成领域,ProLLaMA模型可以生成具有所需功能的蛋白质。

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

与其他模型的不可控生成相比,作者提出的模型在TM-score和H-Prob的值表明能生成具有所需功能的蛋白质。

在蛋白质功能预测方面,ProLLaMA的准确性也非常可观,对许多超家族的预测达到了接近100%的准确率。

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

Part4总结  

现有的ProLLM在蛋白质生成的单一任务中表现出色,但在多个任务中表现不佳。在这项工作中,作者引入了一个有效的训练框架,将任何一般的LLM转换为多任务ProLLM。我们还开发了ProLLaMA,一个多功能的ProLLM用于多个任务,例如可控蛋白质生成以及蛋白质属性预测。实验表明,ProLLaMA的效果非常好。

参考资料

文章链接:https://arxiv.org/abs/2402.17156

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

AI in Graph

ProLLaMA:一种用于多任务蛋白质语言处理的蛋白质大语言模型

+

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...