点击蓝字 关注我们
微末生物
Nanomega BioAI
前言
近十余年来,随着各种结构解析手段的进步,大量蛋白质的高分辨率三维结构如雨后春笋般涌现。以冷冻电镜单颗粒分析【cryo-EM】和冷冻电镜断层成像【cryo-ET】为首的冷冻成像技术大大扩宽了实验所能够解析的结构范围,而以Alphafold为首的结构预测技术随着AI算法的高速发展,也已然成为了震动结构生物学界的一颗新星。
然而,结构生物学的“疯狂发展”和光明前景,却与药物研发领域的艰难前行形成了鲜明对比。一种药物的研发需要跨越层层关卡,而在每一关惊人的淘汰率之下,海量的候选“小分子”中仅有不到3%能够最终成为安全且有效的上市药物。在一些特定领域,这一成功概率甚至更低。总结来说就是,投入高,风险大。
药物研发的困境不仅为相关研究带来了大量困难,一定程度上阻碍了医学发展,还让我们回头来思考一个重要的问题:为什么结构生物学已经发展到如此强大的程度,以结构解析和相关算法为基石的筛选出的小分子药物还是会被以极高的比率淘汰?
这些问题背后,实际上展示了一个事实:我们的结构生物学,绝非是像一些人想象的那样“几乎已经解决了一切问题”,“已经发展到头了”的一门学科。事实是,尽管结构生物学已经取得了关键而粗糙的进展,但我们离最后的结构真相(truth),仍然很远。
2024年2月1日,来自美国加利福尼亚大学旧金山分校(UCSF)的James S. Fraser和美国Disruptive Biomedical LLC公司的Mark A. Murcko在Cell杂志发表了评论文章 Structure is beauty, but not always truth。在文章中他们总结了【结构生物学在助推药物开发方面的四个局限性】。他们表示,如果这些问题在结构生物学的发展中得到解决,将会大大增强分子结构信息在药物开发中的作用。
等待结构生物学家去破解的谜题,还有很多。而在此之前,我们需要先擦亮眼睛:制药界目前的困难就是在告诉你我,结构仍需努力,不能盲目乐观。
困境与误区1:
你的“预测”结果,不接近“真正”结构
我们常说Alphafold可以以非常高的精度来“解析”结构。问题在于,“解析”是什么意思?所谓的“精度”又是怎样衡量的?
“精度很高”一词,在这里,意味着根据 CASP(结构预测关键评估竞赛)所使用的指标,通过Alphafold2对一个蛋白进行“预测”所得出的模型,与在实验中搭建出来的“结构模型”高度相似。但更关键的问题来了——在实验中所确定的那个“结构模型”和在实验中所测得的“原始数据”之间,是完全一致,还是存在偏差?
下面这张图展示了使用X-射线晶体衍射方法得出的“实验密度”与其“结构”之间的关系。(图1)X-射线晶体衍射方法是目前平均分辨效果最好的蛋白质结构解析技术,也是目前使用最广泛的蛋白质结构数据库【PDB】的主要数据源。
图1 Alphafold2的预测结果实际上放大了误差
不难看出,实验所测得的衍射图案(diffraction pattern)等所包含的结构信息十分精确,仅有不到5%的误差。但是,当我们进一步根据数据本身来“提炼/搭建”出三维结构模型的时候,这一差距(残差,residual error)将被放大到惊人的20%!而如果衍射图案本身质量不高,这一结果的问题甚至会更加严重。
问题在于,目前已知的Alphafold的训练模式实际上是使用“结构模型”来进行的。
也就是说,Alphafold本身的预测是“精确度”很高,高达98%;但那都是和“结构模型”相比,而不是就“实验数据”而言的。考虑到实验数据和模型搭建之间本来就存在误差,Alphafold的训练模式实际上对误差进行了进一步扩大——我们看到的精确度是“和已有模型相比的”精确度,而不是“和真实数据相比的”精确度。二者之间,差距明确。
实际上,据文章所说,AlphaFold2的预测结果与“真实结构”相比的精确程度,通常与一次低分辨率(4-5 Å)实验结果的精确程度持平。
这一缺陷反映了我们现在借助于“结构模型”来预测“结构模型”的一个关键不足——预测的结果实际上进一步放大了误差。那么或许,我们可以通过在更早的、“原始”的数据流中地训练模型,来提高预测结果和实验原始数据的一致性。
在预测的精准度方面,挑战与机遇并存。研究人员指出,真实实验数据和预测模型之间的差距可能具有反映大分子的能量地形图,以及模拟分子动态的潜力。但无论如何,在模型预测的方面,若能使用原始的衍射数据、核磁共振数据和冷冻电镜数据,而不是使用从数据上进一步搭建起来的理论模型对AI进行训练,将会为我们带来无误差放大效应的,更接近“真实意义上的结构”而非“现有结构模型”的新原子模型。
困境与误区2:
摆动和抖动不仅关键,还是未解之谜
作为一名物理学家,费曼从分子和原子的角度来认识生命,指出“一切生命的活动都可以由原子的摆动和抖动来理解”。对于结构生物学来说,大分子在原子结构上的“摆动”和“抖动”对于药物的开发至关重要。尽管一些非常简单的蛋白的确可以被认为是静止的,但动态蛋白大分子的经典例子比比皆是:催化CO2从水中释放的【碳酸酐酶】,就具备一个位于活性中心的氨基酸残基——His64,能够通过侧链的转动来改变活性中心的形状。
碳酸酐酶相关的一种药物,多佐胺(dorzolamide),是治疗青光眼的特效药。了解碳酸酐酶结构上的动态对于评估这种药物的有效性至关重要。然而现实是,尽管我们已经知道单个静止结构是“误导性”的,也很难依靠目前的算法模型来精确预测这种简单侧链的移动。
目前这种预测任务非常困难,而蛋白分子本身的动态结构就可能导致其上产生大量“暂时性的”“难以预见的”药物结合口袋。这种矛盾就导致在一个药物开发项目中,研发人员通常需要对大量的药物-蛋白质复合物结构进行快速的结构解析,无论这些药物是否从分子表面上看起来“像是”有效的。
没准在结构的真实动态中,就有那么一个静止的结构模型所捕获不到的“关键形态”能够稳定结合你“药物库”中的某一种关键药物呢?
即使认识到单个结构可能存在误差,我们也很难指望当前的AI算法去认识和掌握多种可能结构的存在,并根据这些可能性对单一蛋白生成不同概率的一系列结构。
事实上,在当下对结构模型的单一预测结果之中,潜藏着作为其本质的“能量地形图”。粗略地说,这种认识实际上认为“稳定则是最佳的”,对特定蛋白“只能给出一种特定结构”,且认为一个结构的预测工作最终“有一个可参考的正确答案”。然而,如果我们能意识到,其他不同的的能量分布形式(也就是多种不同的结构)“同样有产生的概率”而“因这个概率呈现出某种分布”,或许就可以成功解释那些本来用单一结构无法解释的药物学问题。这与物理学界从经典物理学(一个特殊状态)到量子物理学(一个概率的、更加普适的认定)的转变有异曲同工之妙。
然而,目前的模拟方法很难做到这些,因为蛋白结构的状态往往很罕见,同时相互以很慢的速度相互转变。在这一方面,结构生物学仍然有很长的路要走。
困境与误区3:
“体外”的结果,“体内”不灵了
实验是in vitro(体外)还是in vivo(体内),这不仅是个问题,恰恰还是个相当致命的问题——蛋白质在体内表达,再纯化出来,会不会引发结构上的改变,哪怕是细微的改变?细胞内环境和试管中的溶液环境不一样,看起来似乎问题不大;可是从药物设计这样相对“脆弱”的角度上看,就会造成非常严重的影响。
体外能结合,那是结构生物学告诉你的结果;而体内无法结合,就说明目标蛋白的“结构”在不同的环境下发生了改变。而这一点点的改变,就足以让一个药物“候选人”失效。
不过有趣的是,Alphafold2在这一点上干得不错。虽然我们只给了它蛋白质的序列信息,但是人家能凭空给你捏出来更接近“自然条件下”的蛋白质结构。这可比“从头计算”的纯粹物理学策略强多了——明知不是最稳定的情况,Alphafold2还是会在预测时根据“个人经验”为一些辅基的结合留出“口袋位置”。因此,往这样的模型上面添加金属离子和辅分子时,完全不需要大规模的调整。换成物理计算的话,这么一个“空口袋”早就被压扁了。
实验方面,很遗憾,“脱离细胞体系,在体外进行实验”可以说是是结构生物学界目前主流的“三巨头”——冷冻电镜单颗粒分析,核磁共振和X射线晶体衍射的固有缺陷。但是,希望也仍然存在:cryo-ET,这一解析细胞原位结构的冷冻电镜新兴技术,若能够达到更高的分辨率,就会为我们带来更加美妙的、细胞内“生活”的蛋白质结构图景。
困境与误区4:
分子没“打靶”,半路遭“截胡”
在药物研发领域有一个令人抓狂的问题——任何药物小分子,尽管已经被证明能与目标蛋白紧密结合,但还是保留了大量与其他无关蛋白相结合的潜力(图2)。这就意味着【脱靶】的可能性始终存在。
图2: 药物会和多种蛋白相互作用
一种药物入血之后,首先可能和血清蛋白结合;然后可能和大量的膜蛋白,尤其是运载蛋白结合;进入细胞之后,可能和多种代谢酶所结合,并可能作为其催化反应的竞争性底物;甚至进入细胞核之后,还能与转录因子相结合。
每一次结合,都意味着药物的脱靶。一支没有射中靶点的利箭不仅意味着【遭到浪费】,还带来了【命中友军】的危险。这些潜在的,能够“拦截药物”的无关蛋白深切影响着一种药物的新陈代谢和药代动力学(DMPK)。在本文中,作者将这一类蛋白质所组成的集合称为“阻隔体”(avoidome)。
但问题的核心还不在这里;你或许会很惊讶,但从结构生物学的角度,大部分“阻隔体”成员的原子分辨率的三维结构是【尚未确定】的。这是最核心的问题。“许多此类蛋白质都是复杂的机器,包含多个结构域,并表现出相当大的结构动态性。它们的结合口袋可能相当大而且杂乱无章,即使是密切相关的化合物也会有不同的结合模式。”在由结构辅助的药物学研究方面,这是一个重要但困难,而且尚未得到完全足够重视的谜题。
如何解析“阻隔蛋白”,提供足够的信息和方法来预测和避免药物与“阻隔蛋白”结合,是急需结构生物学界投入精力来研究和发展的重要领域。
后记
2024年是美国食品及药物管理局(FDA)批准多佐胺(dorzolamide)用于医疗事务的三十周年(图3)。三十年来,这一药物为无数饱受青光眼折磨的个人与家庭带来了福音。尽管我们看到了结构生物学目前仍存在许多问题,而正是这些问题为其在药物研发上的应用带来了种种限制;但结构生物学早已证明了自己在药物研发方面不可或缺的作用。
对药物研发来说,结构生物学对蛋白质高分辨率结构的解析,和模型的建立,已经可以说是至关重要;而在将来,随着这些问题的逐渐解决,结构生物学将进一步展现其强大之处。未来十年,我们将见证新一代结构生物学的激动人心的进展,见证实验技术和预测算法的齐头并进,将如何为创新药物的发现做出越来越大的贡献。
中科微末团队在生物大分子及其复合体的三维结构解析方面技术成熟、经验丰富,能够在原子级分辨率解析多种生物大分子材料的三维结构。我们致力于为药企和高校医院科研工作者提供一站式、自动化、原子级分辨率的结构解析服务,助力创新药物研发和科研成果转化,帮助科研人员实现“原子结构自由”。
期刊介绍
《CELL》(《细胞》)是由美国爱思维尔(Elsevier)出版公司旗下的细胞出版社(Cell Press)发行的,关于生命科学领域最新研究与发现的杂志。
作为一份同行评审科学期刊,《细胞》刊登过许多重大的生命科学研究进展,与《自然》和《科学》并列,是全世界最权威的学术杂志之一。其2023年的影响因子为66.85。
微末生物
Nanomega BioAI
请关注微末生物
期待与您交流