Nat. Rev. Drug. Discov. | 人工智能何时能实现药物发现的突破

547次阅读
没有评论

今天为大家介绍的是来自Asher Mullard.团队的一篇论文。CACHE的寻找靶点大赛突显了人工智能在识别难以药物化的靶点上识别小分子的潜力,以及这些计算筛选方法面临的漫长道路。

Nat. Rev. Drug. Discov. | 人工智能何时能实现药物发现的突破

小分子药物发现中的人工智能革命梦想是引人入胜的:选定一个靶点,进行虚拟筛选,得到一些有效化合物——就这样开始了。但现实情况更加复杂。尽管生物制药公司大肆宣称该流程可行性,但行业团队很少公开他们在做什么以及进展如何。学术团队更加开放,但往往缺乏资源来严格验证他们的技术或潜在的竞争者。炒作声淹没了真正的发现。来自计算寻找靶点评估的关键(CACHE)竞赛的首批结果现在提供了对这个黑盒的关键一瞥。参赛者对一个难以攻克的靶点取得了进展,但结果显示他们还有很长的路要走。“CACHE揭示了计算寻找靶点的现状。几年后,当我们回顾时,我们会称这是石器时代的艺术,”多伦多大学结构基因组学联盟的计算化学家和CACHE协调员Matthieu Schapira说。23个团队预测了2000多个化合物,他们希望这些化合物能与尚未被药物化的WD40重复域(WDR)的LRRK2结合,LRRK2是一种与帕金森病相关的多功能酶。当这些小分子在实验室中被测试时,不到十个实际上能够适配WDR口袋。“我们的成功率不到1%,”Schapira说。他补充说,成功的命中化合物并不是非常有效,它们的结合亲和力从20到70微摩尔不等。“我的惊讶是,竟然有东西起作用了,”未参与挑战的UCSF虚拟对接专家Brian Shoichet说。他警告说,如果你将效力门槛设置得更高,那么就不会有任何命中。“我告诉他们这个靶点太难了,”他补充说。这个难题源于对LRRK2的WDR域了解甚少,他补充说。它没有已知的结合剂,而且提供的最佳晶体结构显示了一个大的空口袋,没有清晰的配体-蛋白相互作用点(图1)。对这类靶点的命中将标志着计算药物发现新时代的开始。

Nat. Rev. Drug. Discov. | 人工智能何时能实现药物发现的突破

图 1

从计算入手

CACHE挑战赛是仿照蛋白质结构预测的关键评估(CASP)挑战赛模式设计的,在CASP中,参与者根据蛋白质的氨基酸序列预测其结构。CASP始于1994年,26年后,DeepMind的AlphaFold震撼了这个领域。研究人员仍在适应AI的蛋白质结构预测对生物学意味着什么,以及如何最好地利用这些结果。计算方法已经深深嵌入到药物发现的工作流程中,但仍需要更多的工作。AI支持者希望,各种类型的机器学习将使这些工具对药物发现产生像AlphaFold对结构预测那样的变革性影响。最初由结构基因组学联盟组织的CACHE旨在帮助该领域克服前方的许多障碍。

在第一次挑战中,23个团队报名预测将与LRRK2的WDR域结合的配体。参赛者使用他们选择的计算方法预测可能击中目标的100种化合物。CACHE团队随后从按需制造的小分子供应商Enamine订购这些化合物,在实验室中测试它们的活性,并对结果进行评分。识别出有趣化合物的团队被邀请提出另外50种类似物,这些类似物再次进行测试。所有的结果都已向公众披露。参赛者可以选择匿名。“CACHE是一个伟大的想法,”Shoichet说。他表示,社区需要严格的湿实验室测试来排除伪阳性,这为计算命中验证设定了更高的标准。“文献中充斥着人们报告一种分子活性的论文,但他们只使用了一种实验,并且没有控制其他因素,所以你永远不会真正信任它们。”

对于CACHE,一个五人组成的“命中评估委员会”负责评估发现。“命中在一定程度上取决于观察者的眼光,不同的人可能会有不同的看法,”Relay Therapeutics的首席数据官兼委员会成员Pat Walters说。尽管命中率低且最佳表现者的效力差,但七个团队提出了一些具有足够良好的结合特性和类药性质的多样化小分子。这些命中是“很好的起点”,Walters说。“我们正在进行渐进式的改变和改进,但并没有什么惊天动地的东西从这个首次挑战中产生,”他说。准确性胜过数量和效力,Schrodinger的研发总裁Karen Akinsanya补充说。Akinsanya没有参与CACHE,但她的公司开发了广泛使用的计算药物发现工具。“如果你的结构和结合模式准确,低命中率并不是坏事,”她说。这些命中是否有实际应用可能取决于WDR的起始结构是否足够好地模拟了其生物相关形式。她最近在《细胞》杂志上写道,弄清楚结构,准备好用于虚拟筛选程序仍然是该领域的优先事项。

AI在药物发现中引入了什么?

CACHE的参赛者依靠的技术已经深深融入了许多药物发现组织中。得分最高的团队使用了:基于药效团的方法,来确定小分子与口袋相互作用所使用的特征;超高通量对接,快速测试数十亿化合物在口袋中的适配情况;分子动力学和自由能计算,更仔细地研究特定小分子如何与目标相互作用;以及基于片段的方法,从即便是最小的配体中汲取信息。“没有一个常见的主题;每个人都做了完全不同的事情,”Walters说。

在CACHE开始时,Schapira期望挑战赛展示简单方法与更复杂方法的比较。最终,“它们都相当复杂,”Schapira说。六个顶尖模型中有一些使用了某种形式的下一代机器学习。例外的是在圣裘德儿童研究医院的Christoph Gorgulla,他使用一套叫做VirtualFlow 2.0的传统计算药物发现工具进行了一个超大规模对接实验——从690亿化合物的库中寻找结合剂。这个计算化学空间如此之大,以至于将每一个化合物都对接到口袋中变得不切实际。一些团队尝试使用AI作为加速剂来选择哪些化合物进行对接,但VirtualFlow依赖于预定义的“采样”策略来集中其计算能力。一些参赛者还使用AI来制定评分函数,以评估对接化合物与目标的相互作用如何,但在Gorgulla的实践中,传统方案仍然表现最佳。“一个结论是,传统方法仍然能够与基于AI的方法竞争,”Gorgulla说。

CACHE获胜者所用的大部分计算能力都致力于已建立的计算药物发现工具,Merck KgaA的首席科学家和另一个挑战赛得分高的竞争者Lukas Friedrich补充说。“基于药效团的筛选和超高通量对接已经提供了解决方案。问题是,我们在过程的每个阶段真的需要复杂、先进的AI技术吗?”答案可能取决于上下文,例如,对一个靶点的结构及其结合物了解多少,他补充说。“我们不太可能找到一个适用于每个靶点的通用解决方案。”

程序的目的也很重要——不同的工具可能对小分子发现或优化过程的不同方面更有用。Friedrich和Merck KgaA计算药物设计负责人Christina Schindler结合了对接和一个叫做REINVENT的生成模型来设计新的分子,随后通过相似性搜索在Enamine上找到可购买的化合物。Merck KgaA已经在引导优化程序中使用这种生成方法,Schindler说,并且想在命中发现中试用它。“绝对值得一试,”她基于她在CACHE的成功说。她补充说,看到不同技术在不同情境下如何表现是CACHE吸引力的一部分。“我希望我们会学到何时进行虚拟筛选最有可能成功。”

Ctrl + alt + delete

未来的CACHE轮次将针对具有不同属性、结构起点和化学物质基线的目标。目前已经有三个挑战正在进行中,另外一个已经宣布,还有其他一些正在筹备中。“每四个月我们将发布一个新的数据集。这是它变得令人兴奋的地方,”Schapira说。

第二和第三个挑战在寻找针对SARS-CoV-2的NSP13解旋酶和NSP3宏域的命中。第四个挑战专注于CBLB的TKB域,一个E3泛素连接酶,由于这些酶在靶向蛋白降解中的作用,成为了行业投资的焦点。参赛者可以访问CBLB的实验晶体结构和数百种结合剂的数据。

在LRRK2挑战中,大多数参赛者是学术团队,但在CBLB挑战中,近50%的参赛者是生物技术公司。“情况似乎在变化,”Schapira说。“我不知道这是否是一个将继续的趋势,或者它只是说明了我们提名的不同类型的目标。”他补充说,CACHE能吸引的参赛者类型越多越好。最近宣布的第五轮聚焦于MCHR1,一个参与睡眠、焦虑、抑郁和学习的GPCR。竞争者将获得大约3500种化合物的数据,这些化合物针对目标的效力从低纳摩尔到高微摩尔不等。MCHR1是CACHE的第一个没有实验解决的蛋白质结构的目标——迫使参与者尝试不同的方法来找到命中。

依赖于现有结合数据的方法将有机会大放异彩。结构预测工具也可能如此。“我猜测这将是测试AlphaFold或RoseTTAFold的新试验场,”Shoichet说。研究人员仍在努力理解如何在药物发现中最好地使用预测的蛋白质结构。到目前为止,在大多数报道的研究中,使用晶体结构的虚拟筛选似乎仍然优于依赖于预测结构的筛选。但Shoichet和同事最近在bioRxiv上报告说,基于AlphaFold的筛选至少对两种GPCR蛋白有优势。“如果你小心的话,AlphaFold结构可以是虚拟对接的极好模板,”Shoichet说。他推测,AlphaFold可能采样了一组与晶体结构不同的蛋白质构象,导致了不同的结合可能性。“这是我去年看到的最真实令人兴奋的结果之一,”Walters说。但他补充说,药物发现不仅仅是关于结合。计算方法还不能可靠地预测一个小分子是否可溶,这是任何竞争者必须具备的。AI还未能解决预测的命中是否可以在实验室中制备,是否能穿过细胞膜,或是否会有脱靶责任。Walters解释说,药物发现是一个多参数优化问题。“实际上我们在尝试找到具备全套特性的东西。”Schapira认为这最终会实现。“我们正处于突破的边缘,”他说。“一些生物技术公司说它已经发生了。有人说它几个月内会发生。我说这将需要几年时间。”参赛者将在3月份在多伦多的一个研讨会上相聚,讨论从这个首次挑战中学到的教训。

帕金森病研究进行中

CACHE的第一轮结果也可能提供更具体的收益。迈克尔·J·福克斯基金会(MJFF)支持了第一个挑战,因为LRRK2的WDR域在帕金森病中的作用,指导团队关注这一领域。公司已经在针对LRRK2的激酶域,但WDR域的小分子结合剂仍然难以捉摸。对于MJFF的联合首席科学官Brian Fiske和高级转化研究副主任Luis Oliveira来说,CACHE的结果表明这些候选物是可及的。“CACHE竞赛已经产生了有希望的初步结果,确认了LRRK2 WDR域是可药物化的,”Fiske和Oliveira在一封电子邮件中写道。“针对WDR域提供了多样化LRRK2治疗管线的机会。”Merkley希望这些结果将促使药物制造商重新审视LRRK2。他的团队现在正在考虑对挑战中产生的命中进行可能的后续路径。“至少有一个命中让人们真正感到兴奋,”他说。

编译 | 曾全晨

审稿 | 王建民

参考资料

Asher Mullard. (2024). When can AI deliver the drug discovery hits? Nature reviews drug discovery. 

doi: https://doi.org/10.1038/d41573-024-00036-0

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy