AIR学术|北大裴剑锋:PharmGPT生成式大模型及其在药物设计中的应用

547次阅读
没有评论

和自然界的生物分子不同,化学小分子多数是由人类创造出来的,其存在不代表有确定的功能意义,让化学大模型具有更多与药物相关的知识对于AI药物设计是非常重要的。

——裴剑锋10月14日,第5期AIR学术工作坊第二位嘉宾:北京大学前沿交叉学科研究院特聘研究员,博士生导师裴剑锋教授,为我们做了题为《PharmGPT生成式大模型及其在药物设计中的应用》的报告。

AIR学术|北大裴剑锋:PharmGPT生成式大模型及其在药物设计中的应用

          

讲者介绍

京大学前沿交叉学科研究院特聘研究员,博士生导师,2014年起在国内率先开展人工智能药物设计研究,在JACS、PNAS、Nucleic Acids Res、J Med Chem、Nature、Chem Sci等国际重要学术刊物上发表论文70多篇,申请获得专利6项,软件著作权8项。主持和承担863计划、重大新药创制国家科技重大专项、国家基金委重点项目等国家科研项目多项。曾获中国药学会施维雅青年药物化学奖,中国化学会青年计算化学奖和药明康德生命化学研究奖。

报告内容

裴教授从靶标的角度为我们介绍了AI在生物学中的应用。最近蛋白大模型预训练更是火热(例如ESMFold)。基于新的预训练方法,裴教授为我们进一步介绍了新的蛋白质功能预测框架QuoteTarget。新的框架在很多任务上都有很大的提升。不仅如此,QuoteTarget也提供了一定的可解释性。分析在序列特征上找到模型重点关注的位置到结构上的对应关系,可以发现80%~90%的情况都对应药物的结合位点。不过裴教授也对模型的泛化性能表达了担忧,基于序列的深度学习模型在全新序列上的泛化性仍然是未知的。

AIR学术|北大裴剑锋:PharmGPT生成式大模型及其在药物设计中的应用

接下来裴教授为我们介绍了集成各项先进技术形成的靶点评估平台TopTargets。该平台对于上市药物靶点的价值分析中展示了非常高的准确率,在销售前100的药物对应的靶点上,TopTargets成功将76%的靶点预测为高价值靶点。裴教授相信这个平台在未来也可以为大家带来更多的帮助。

结束了靶标层面的探讨后,裴老师带我们进入了AI在化学大模型中的应用。裴教授首先为我们总结了常见的小分子预训练模型及其预训练方法。然而,使用大模型进行分子生成的工作,仍旧是一片蓝海。目前的药物分子生成模型仍然具有较大的局限性,基于结构的分子生成方法还很不成熟,基于配体的生成则被批评为生成的分子和现有药物分子的结构过于相似。为解决这些问题,发展更通用的药物分子生成大模型,裴教授团队联合英飞智药发展了PharmGPT生成式大模型,一个非常令人振奋的测试是上市小分子的召回实验。训练集中不包含上市的小分子。PharmGPT对于每个药效团prompt生成10000个分子,如果其中包含上市分子则视为成功。最后模型召回了85%以上的药物分子召回,展现出了其强大的潜力的通用性。

AIR学术|北大裴剑锋:PharmGPT生成式大模型及其在药物设计中的应用

PharmGPT的一大优势是可以生成药效上相似,但结构上不相似的分子。例如对于PLK1抑制剂目前活跃的临床二期分子NMS-1286937,PharmGPT生成了一系列在药效团上与它类似的分子,对其中的4个小分子进行了化学合成和湿实验验证,发现其中一个分子的酶活抑制IC50值接近阳性分子NMS-128693,但二者的分子相似性只有0.28。这样的能力使得PharmGPT可以很容易突破分子骨架的限制。

AIR学术|北大裴剑锋:PharmGPT生成式大模型及其在药物设计中的应用

最后,裴教授也介绍了DeepLigBuilder生成技术,用于基于靶点的药物分子三维结构生成。PharmGPT和DeepLigBuilder在多个管线中找到潜在PCC分子,且具有极高的设计成功率。

AIR学术|北大裴剑锋:PharmGPT生成式大模型及其在药物设计中的应用

AIR长期招聘人工智能领域优秀科研人员

关于AIR

清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的校级研究机构。AIR的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎,突破人工智能核心技术,培养智能产业领军人才,推动智能产业跨越式发展。
AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。
智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Life Science)是清华大学智能产业研究院的三个重点研发方向。

往期精彩:

【内附完整论文】AIR近期亮点论文解读

AIR学术|上交大陈思衡:图网络学习-从社交网络到车路协同

聂再清:科学研究需要大胆设想,不用刻意避免大模型幻觉

AIR快讯|BioMedGPT-10B全球首个开源可商用百亿参数多模态医药大模型

AIR学术|姚权铭:用于结构化数据的大语言模型——路在何方

倒计时10天:「数字经济人才培养项目」首期班即将起航

张亚勤:将价值观放在技术之上拥抱AI

AIR观点|聂再清:“智能涌现”和“触类旁通”能力,助力大模型成为人工智能时代的操作系统

未来已来|Max Tegmark & David Krueger教授谈AI发展影响和风险

多项第一!AIR@LONDON 机器人探索之旅

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy