30亿美元交易的背后:Alphafold的无限进化之路

496次阅读
没有评论

30亿美元交易的背后:Alphafold的无限进化之路

开年以来,AI制药领域最大的事件莫过于Isomorphic Labs宣布与礼来和诺华达成了总价30亿美元的合作。


第一次BD便拿下两家MNC,Isomorphic Labs无疑证明了自己在制药领域的潜力。更为重要的是,这次合作有望使得相关技术形成商业化闭环,这也是彼时公司从DeepMind中拆分出来的初衷。


去年Meta裁掉其AI蛋白质研究团队,转而支持能够产生收入的AI项目。而一个多月前,“由于预算及盈利等原因”,阿里达摩院解散量子实验室的消息仍历历在目。


是的,即使壕气如科技大厂,面对迟迟无法商业化的项目也可能会放弃


谷歌在医疗健康领域频频出手,但整体商业化表现不佳却是血淋淋的现实,而这次合作更加坚定了管理层对AI+生物技术的信心,可以期待更多的资源投入,这是此次合作更加深远的意义。


说回正题,Isomorphic Labs之所以能拿下天价大单,与其建立在DeepMind研究基础上的技术创新分不开,尤其是近几年Alphafold的突飞猛进,成就了一个“高开高走”的典型案例。


回头看,Alphafold2问世之初的部分主要质疑正在被攻克,包括:


1.对蛋白-蛋白复合物、蛋白-小分子配体等复杂结构预测的低效


2.缺乏蛋白质在不同状态下的精准构象信息


3.无法预测点突变带来的影响


坦白讲,这些批评在当时的确击中了Alphafold2的要害,蛋白质结构预测要想真正应用于药物研发乃至更广阔的工业用途,需要跨域这些难关。


但时至今日,上述情况在Alphafold2衍生模型以及新一代Alphafold(Alphafold-latest)的诞生下得到了较大改善,这些进展推动这项新兴技术跨入现代制药工业的门槛。


30亿美元交易的背后:Alphafold的无限进化之路传统物理算法迎来强大对手

去年11月,Alphafold-latest横空出世,相较于上一代版本,功能和性能有了不少提升。


带给笔者最大惊喜的是其所展现的强大分子对接能力,在PoseBusters基准测试中打败一众现有方法,“遥遥领先”
30亿美元交易的背后:Alphafold的无限进化之路
此前Alphafold在分子对接方面的劣势被诟病已久,长久以来,由于蛋白质-配体之间相互作用的复杂性,这一领域被基于物理函数的AI算法们所把持。
就在不久前,薛定谔的蛋白质结构建模高级总监 Edward Miller还公开指出了Alphafold2在基于结构的药物设计(SBDD)上的不足。


他表示:“AlphaFold确实可以为hit发现提供一些效用,但首先必须了解结合位点和结合模式”。


只能淡淡说一句:“大人,时代变了”。


30亿美元交易的背后:Alphafold的无限进化之路
在官网上,Alphafold-latest明确指出其不需要参考蛋白质结构或配体口袋的位置。
具体怎么做到的呢,官方文件中写道“AlphaFold-latest将对生物组装体的描述作为输入,包括聚合物的序列和配体的SMILES序列,以及可选的共价键、配体的序列位置,输出对每个重原子的3D位置的预测。”


这种方法是不是很熟悉?此前David Baker实验室推出的RoseTTAFold All-Atom和Patrick Bryant等人开发的Umol思路与之类似。


与传统方法相比,像AlphaFold-latest、Umol、RoseTTAFold All-Atom这样的新势力直接将蛋白质及其配体作为一个整体进行研究,采取类似于“共折叠”(co-folding)的方式,问题得到了简化。


其中AlphaFold-latest的表现最好,甚至超出了一众主流物理算法,包括薛定谔的Glide和Scripps研究所的Autodock Vina。


其带来的冲击之大,以至于有观点认为:“看起来,基于传统算法的分子对接程序,会势必缓慢的进入一段沉静期”。


此前智峪生科CEO王晟曾表示,未来这条路径(co-folding)一定是大家都选择的方向,因为它更加偏向真实的物理过程。


不过,立马就有传统派挑战者出场,深势科技在AlphaFold-latest推出20天后官宣了自研的Uni-Mol Docking V2在对接预测的成绩,在77.6%的预测任务上达到 RMSD < 2.0 Å 的高精度标准,精度超越所有已知方法。
30亿美元交易的背后:Alphafold的无限进化之路
不过,在之后的采访中,深势科技的技术人员也承认,其解决方案在应用场景上更受限,而AlphaFold-latest更具通用性。
看起来,在蛋白质-配体领域,传统派和维新派的战争仍在继续,但不可否认的是,AlphaFold已经取得巨大进展。


30亿美元交易的背后:Alphafold的无限进化之路多构象预测的突破意义重大

蛋白质结构并非一成不变,实际上,在大多数情况下,蛋白质都处在动态变化中。


尤其是在具体执行功能过程中(如酶从失活状态转变为活性状态、蛋白和配体结合等等),蛋白质往往发生构象变化,深刻影响包括药物设计在内的众多研究。


因此蛋白质结构预测想要真正落地,就必须在一定程度上捕捉结构的动态特征,揭示构象变化过程。


AlphaFold2一个重要缺陷便在于其对蛋白质多构象的无能为力,就连DeepMind核心科学家John Jumper都表示,Alphafold无法区分蛋白的活性、非活性构象,仅能预测它所认为的蛋白质最有可能处于的状态。


这一特征也常被结构生物学家拿来当作证据来论证AI技术对他们所处领域的影响有限。


不过,基于AlphaFold2的架构,近年来一些团队做出了不小成果,实现了在部分蛋白中多构象的预测。


布兰迪斯大学的Dorothee Kern教授团队开发出AF-cluster,在KaiB(蓝藻中被发现的生物钟蛋白)、RfaH(大肠杆菌的转录和翻译因子)等多个变形蛋白家族实现了多构象预测,相关研究结果的预印本于2022发布,并在2023年发表在Nature。


具体来看,在多序列比对(NSA)过程中,该团队根据不同序列距离标准进行聚类之后,再分别输入到AF2中,获得多种构象。

30亿美元交易的背后:Alphafold的无限进化之路

图:AF-Cluster预测蛋白质RfaH的两种构象


但这一方法也有其局限,只针对部分存在共进化信号的蛋白,泛化能力还不强,但AF-cluster的方法无疑提供了一种有价值的研究思路,为多构象预测带来可取路径。


此外,McHaourab, H. S等人也在通过调整AF2模型——包括改变MSA 序列大小、替换特定残基等方式——来获得同一蛋白质的多种构象,并揭示了不同构象之间的主要差异。


生命在于运动,蛋白质结构预测并不是终点,而应该是理解分子层面生命运动规律的起点。
正如颜宁院士曾经说的:“我们的目标并不是要获得研究对象(蛋白质)的折叠信息,而是要解析其处于不同工作状态的精准构象信息,以此来理解它的工作机理和致病机理。”


由此看来,多构象预测上的进步,将大大拓展AlphaFold的想象空间。


30亿美元交易的背后:Alphafold的无限进化之路任重道远的点突变预测

基因突变广泛存在,其中中使蛋白质中氨基酸种类和序列发生改变的一类突变被称为错义突变(missense mutation),可能会对蛋白结构和功能产生重大改变,进而为生命体带来正面/负面影响。


在目前观察到的 400 多万个错义变异中,只有约2%在临床上被归类为致病或良性,对其余意义不明的变异进行分类是人类遗传学目前面临的一项重要挑战。


缺乏准确的错义变异功能预测方法限制了罕见病的诊断率,也限制了针对潜在遗传病因的临床治疗方法的开发或应用。


去年9月,DeepMind在AlphaFold的基础上改进衍生的错义变异致病性预测模AlphaMissense发布,并登上了《Science》封面


研究人员通过AlphaMissense 预测了19,233 个人体内经典蛋白质中所有 2.16 亿个可能的单个氨基酸突变的致病性,从而产生了 7100 万个错义变异预测,并将其中的 89% 进行了分类,其中有 32% 可能是致病的,另外 57% 则可能为良性的,在 ClinVar 数据集上使用的评分临界值达到了 90% 的精确度。

30亿美元交易的背后:Alphafold的无限进化之路图:AlphaMissense 的实现方法


不过在随后的一些第三方研究,则指出AlphaMissense运用在具体操作中的局限。


范德比尔特大学团队用AlphaMissense的预测结果在CFTR(囊状纤维化跨膜转导调节子)这个靶点相关疾病上进行评估,结果显示其在致病性预测上表现一般,药物反应预测上更是非常有限。


需要指出的是,AlphaMissense并没有达到能够预测点突变将导致蛋白质结构如何变化的水平,其现在所能做的,只是预测哪些位置的突变是良性,哪些可能是致病性的(根据打分高低)。


这意味着, AlphaMissense距离做出实际落地的产品(如疾病诊断、药物研发等)还有很长一段路要走。但该模型在算法策略上所进行的创新非常惊艳,将加速这个方向的研究。


30亿美元交易的背后:Alphafold的无限进化之路写在最后

以上所列举的,只是Alphafold在2023年众多重要进展的一部分,但也足够说明这项技术及其延伸家族正在克服此前存在缺陷,点亮一个又一个技能树。


这样的成就,一定程度上要归功于Alphafold所形成的生态,作为业界当前最为知名、应用最为广泛的蛋白质预测AI模型,众多第三方科研团队在其基础上的做出的调整,反过来继续巩固了AF在这一领域的“霸权”。


另一方面,背靠谷歌母公司Alphabet的Deepmind,在算力资源上的巨大优势,也让许多同领域中的参与者难以望其项背


可以想见的是,在蛋白质结构这一领域,可以预见的未来中,AF都将保持第一梯队的身位。


更为重要的是,AlphaFold在蛋白质中掀起的革命,大有蔓延到RNA领域的势头,一些基于AF2框架进行RNA三维结构预测的工具已经出现,在CASP 15表现亮眼。


尽管如此,当前AF及其相关技术的发展仍处于初期,正如此次30亿美元合作中首付款不过8250万美元,体现了大型制药公司对新技术的谨慎。


但从另一个角度思考,庞大的交易总额,实际上展现了资深制药企业对于以AF为代表的AI技术未来数年快速发展的预期。


毕竟,Alphafold第一代只能做到蛋白质结构的二维表示,Alphafold2则相当精准地预测了蛋白质的三维结构,未来的Alphafold3、Alphafold4将进入哪些领域、做到什么水平,值得期待。

参考资料:《汇编|AlphaFold之于医药研发的意义》,小王随笔《钰沐菡公开课 | 跨越分子边界:AlphaFold引领生命科学的新纪元》,钰沐菡《颜宁点评AlphaFold2 + 外行买家秀:蛋白结构预测神器初体验》,返朴
—The End—
推荐阅读30亿美元交易的背后:Alphafold的无限进化之路30亿美元交易的背后:Alphafold的无限进化之路30亿美元交易的背后:Alphafold的无限进化之路30亿美元交易的背后:Alphafold的无限进化之路

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy