2023年10月17日,Nature reviews molecular cell biology杂志(最新影响因子112.7)发表文章Challenges and opportunities in macromolecular structure determination。 在文章中,德克萨斯大学西南医学中心生物物理系的白晓晨、加利福尼亚大学洛杉矶分校霍华德-休斯医学研究所的Tamir Gonen、匹兹堡大学结构生物学系的Angela M. Gronenborn、荷兰癌症研究所生物化学部肿瘤编码研究所的Anastassis Perrakis、汉堡大学纳米结构与固体物理研究所的Andrea Thorn、山东大学数学与交叉科学研究中心的杨建益等人讨论了确定大分子结构的主要挑战和机遇,强调了经验实验和基于人工智能的技术在揭示大分子结构复杂性方面的重要协同作用。
当今蛋白质结构测定面临的主要挑战,以及如何应对
Angela Gronenborn:
无论是X射线晶体学、核磁共振和低温电子显微镜这三大实验方法中的哪一种方法,都只能提供所研究对象的部分表象,因此必须对不同的理论和实验方法、模型和描述进行整合,以得出具体现象的整体图景。
白晓晨:
大多数大分子蛋白质复合物在细胞过程中固有的动态性质(从细胞中提取蛋白质样本时,它们通常包含各种构象或组成状态),给结构测定带来了巨大挑战。
为了克服这一难题,研究人员开发了各种三维分类方法,以分离具有不同构象状态的颗粒。然而,目前的三维分类方法无法处理高度异质性或连续的构象变化。因此,在低温电子显微镜图谱中无法检测到具有很大结构灵活性的区域,导致结构不完整。这种局限性阻碍了我们对蛋白质动态的理解。
此外,利用低温电子显微镜捕获弱关联复合物的结构也是一个额外的挑战。这主要是因为低温电子显微镜所需的样品浓度较低(在低微摩尔范围内),这会导致不稳定的蛋白质复合物解离。相比之下,在X射线晶体学中,结晶需要非常高的蛋白质浓度,从而促进复合物的形成。此外,在低温电子显微镜网格上的溶液薄层中,由于与疏水性空气-水界面频繁接触,弱关联复合物会变得更加不稳定。
Tamir Gonen:
确定膜蛋白的结构仍是一项关键挑战。
由于大多数药物、小分子、天然产物等都与膜蛋白结合并通过膜蛋白发挥作用,因此了解这些结构对药物发现具有重大意义。然而,这些蛋白质大多很小,使用单颗粒冷冻电镜等方法难以解析。此外,使用晶体学技术也很难制造、纯化和分析这些蛋白质。
为了克服这些难题,Tamir Gonen开发了一种名为微晶电子衍射(MicroED)的方法。MicroED 不使用X射线,而是使用电子来检查微小晶体中分子的原子结构。MicroED与X射线晶体学的主要区别在于,MicroED所需的晶体要小得多,约为X射线晶体学所需的十亿分之一。这意味着MicroED解决了膜蛋白的工作问题,使膜蛋白更易于研究。
利用这种技术,研究人员不仅可以确定蛋白质的结构,还可以确定与蛋白质结合的药物或药物的分离结构。
杨建益:
基于机器学习的计算方法,如AlphaFold2和RoseTTAFold在蛋白质结构预测方面的应用已经引起了广泛关注。然而,目前这些技术主要用于静态结构,对生物功能没有考虑或考虑有限。鉴于静态结构预测方面的巨大进步,主要挑战在于面向生物功能的结构预测。
这包括具有多种功能状态的结构、折叠途径、内在无序蛋白质、复杂结构(蛋白质-蛋白质、蛋白质-核酸和蛋白质-小分子)以及突变效应。在基于机器学习的静态蛋白质结构预测取得成功的基础上,研究人员正在开发新的计算算法来应对这些挑战。一个新的前沿领域是将实验数据(如核磁共振、SAXS和低温电子显微镜)整合到计算算法中。
Anastassis Perrakis:
如何在构象状态和动力学的背景下理解蛋白质的结构和相互作用,是一个重要挑战。这既包括”结构化”蛋白质,也包括其”非结构化”区域。
虽然我们可以洞察到许多酶的催化过程、蛋白质结构区域中大小构象变化的大量实例、以及蛋白质与其他大分子形成复合物时从无序到有序(或从有序到无序)的许多转变,但这些只是细胞内发生的体外现象。晶体或溶液与细胞之间的基本化学性质不太可能发生变化,但动力学很可能受到无数不同事物的影响。
Anastassis Perrakis的团队正在探索机器学习方法在预测生物配体与蛋白质结合方面的潜力,这是对其团队的AlphaFill方法的延伸,该方法根据序列和结构与实验确定的结构的相似性,将辅助因子和配体添加到AlphaFold预测的蛋白质结构模型中。
Andrea Thorn:
目前许多最令人兴奋的问题都与动力学有关–分子机器的运动、膜蛋白的信号转导或病原体与宿主的相互作用。然而,晶体学和低温电子显微镜主要为我们提供代表单一低能状态的模型。
另外,当前正在被广泛使用的基于机器学习的折叠预测,是在刚性分子模型上进行训练的,因此无法为我们提供灵活性、动力学或折叠的全貌。
Andrea Thorn所在的研究小组的目标是了解大分子的溶解(它驱动着灵活性)以及分子运动本身。研究小组尝试将核磁共振、电子显微镜、晶体学、生物化学、分子动力学计算等不同来源的信息结合起来。
应对这些挑战所需的关键进展是什么?
Angela M. Gronenborn:
如果考虑到核磁共振方法,主要的挑战是灵敏度以及收集和分析数据所需的时间。这既适用于溶液NMR,也适用于固态NMR。
为了提高灵敏度,需要进一步大力发展超极化方法,并结合推动超高场磁体技术。为了加快数据收集和分析,自动化是绝对必要的。核磁共振共振分配的自动化是绝对必要的,而且需要尽快实现。这同样适用于基于NMR提取的距离和角度的计算机蛋白质折叠(模型)测定。
白晓晨:
显然,我们迫切需要开发更先进的图像分类算法,用于单颗粒冷冻电镜,从而有效处理蛋白质复合物中的巨大结构异质性和连续运动。这种技术进步将使我们能够捕捉动态蛋白质复合物和瞬时蛋白质-蛋白质相互作用的结构快照。
此外,开发改进的电子检测相机和下一代相板(phase plates)对于进一步提高冷冻电镜显微照片的质量至关重要,这将能够识别更小的构象变异性。
此外,迫切需要设计出更好的低温电子显微镜网格制备方法。低温电子显微镜网格的疏水气-水界面经常导致弱蛋白质复合物解离。一种可能的解决方案是在低温电子显微镜网格上涂覆连续的碳或石墨烯,以吸收蛋白质并使其远离空气-水界面。然而,这些支撑膜会带来额外的背景噪声,降低颗粒图像的清晰度。因此,开发改进型支撑膜(最好利用二维蛋白质晶体)变得至关重要。
Tamir Gonen:
在许多情况下,预测蛋白质的结构比通过实验实际确定其结构要容易得多。然而,当涉及到膜蛋白时,预测其结构就非常具有挑战性。这是因为膜蛋白的实验结构并不多,这限制了我们在机器学习管道中可以使用的信息。
此外,使用膜蛋白的序列数据也很困难,因为某些看似亲水的部分实际上可能隐藏在膜内部,受到蛋白质结构的保护,与膜内部的疏水核心隔开。这就给预测它们的结构带来了困难。
同样,由于我们对膜本身结构的了解有限,因此很难预测这些蛋白质在细胞膜内的折叠和存在方式。为了克服这些困难,我们需要能在膜蛋白嵌入膜时,使用极少量材料就能确定其结构的方法。
显微电子显微镜和电子晶体学尤其是确定膜蛋白结构的绝佳方法,因为它们能让我们在脂质双分子层这一自然环境中研究膜蛋白。当分辨率足够高时,这些方法甚至可以揭示脂膜本身的结构。
杨建益:
理解大分子的生物功能-结构关系是一项重要挑战。开发基于机器学习的结构-功能预测算法的主要障碍之一是缺乏大量不同的训练数据。统计结构预测的成功与50多年来将高质量结构存入蛋白质数据库的努力密不可分。
然而,在不久的将来,通过纯实验获得足够数据的可能性较小。计算科学家和实验科学家之间需要密切合作,以加快结构-功能关系的实验测定过程。不过,在现阶段,由于结构-功能关系数据有限,将基于物理的模型与机器学习算法相结合可能会有所帮助。
Anastassis Perrakis:
没有单一的方法能够解决所有问题。
要了解构象状态,就需要在单颗粒低温电子显微镜中更好地对构象状态的全部光谱进行采样,我们现在只能解释’网格’中可用信息的一小部分。更好的样品制备方法和更快、更准确的冷冻电层析成像数据采集,可以使细胞中的大分子结构受益匪浅。
采用更有效的X射线、核磁共振和低温电子显微镜方法来确定与蛋白质(或DNA和RNA)结合的配体结构,将是创建大型数据集的关键,我们需要将这些数据集与生化和细胞测定中的功能数据关联起来。
Andrea Thorn:
虽然我们已经可以测量大分子复合物的溶解、动力学和流动性,然而我们缺乏全面解读这些数据的工具。我们需要从根本上更好地了解这些过程,这样才能更好地解释实验,并将其用于计算。
值得庆幸的是,结构生物学界正在迎接挑战,开展更灵敏的测量、人工智能指导下的解读和综合结构生物学研究,让不同的方法相互借鉴。
基于AI的计算方法能否完全取代蛋白质测定实验?如何利用两种方法实现最大效益?
Angela M. Gronenborn:
对于许多蛋白质来说,基于机器学习的程序已经可以确定折叠。
利用预测模型的方法是设计巧妙的实验来验证或证伪预测。例如,如果在蛋白质的结构信息位置明智地引入几个”核磁共振活性”原子,它们就能提供长程距离,以检验机器学习预测模型的有效性。同样,我们也可以将核磁共振实验的重点放在原子细节上:如果认为蛋白质中的单个氨基酸变化与疾病突变体有关,我们就可以将核磁共振活性同位素(如 15N 和 13C)引入蛋白质的这一特定区域,并比较突变体与野生型蛋白质的构象。
对于研究溶液中的小分子与蛋白质之间的相互作用(如结构引导药物设计工作中所追求的),计算方法可以提供初步建议,并通过实验加以完善。如借助人工智能设计分子池并对其进行分卷、识别hit、协助分析大型数据集和预测配体结合亲和力等。
白晓晨:
事实证明,基于机器学习的技术可以准确预测单个蛋白质或简单蛋白质-蛋白质复合物的结构。然而,当使用机器学习预测大型大分子机器或高阶蛋白质组装体(如大寡聚体、长丝或液态凝聚体)的结构时,就会遇到挑战。由于这些复杂结构错综复杂,因此很难用机器学习进行精确的结构预测。
此外,虽然计算方法擅长识别蛋白质的最低能量构象,但它们并不适合描述具有内在灵活性的蛋白质的构象组合。
不过,基于机器学习的方法可以有效补充实验结构测定方法。例如,许多动态蛋白质复合物的低温电子显微镜图谱以及利用低温电子断层扫描(cryo-ET)重建的这些图谱都是以中等分辨率(5-10 Å)确定的,而这些低质量图谱的解读具有挑战性。在这种情况下,机器学习有助于通过计算建立复合物中单个蛋白质成分或结构域的精确模型。然后,这些通过机器学习预测的蛋白质片段就可以通过刚体对接技术与低质量的低温电子显微镜图或断层扫描图相匹配,从而得到整个蛋白质组装的完整模型。
机器学习在单粒子冷冻电镜的数据处理中也能发挥重要作用。在粒子拾取、粒子动力学分析、分辨率估算和图锐化等任务中,采用了各种基于机器学习的方法。此外,对于分辨率优于 3.5 Å 的高分辨率冷冻电镜图谱,机器学习方法可以自动执行精确建模,从而大大减少人为引入的潜在建模错误。
Tamir Gonen:
人工智能不能取代实验,它的作用是补充实验,并提供有价值的信息来协助实验设计。
预测的准确性取决于输入数据的质量。在我们自己的实验室实验中,机器学习成功地生成了一个合理的模型来解释一种新蛋白质的MicroED数据,但却未能识别出该蛋白质活性位点发生的结构变化。通过MicroED获得的这一关键信息对于了解酶的作用机理十分必要。
由机器学习驱动的方法可以提供重要的见解来指导实验设计,但这些预测必须通过实际实验来验证和验证研究结果。
杨建益:
基于AI的计算方法能否完全取代蛋白质测定实验的问题,取决于具体的实际应用。
对于侧重于细胞功能的定性研究,如转录组学和代谢组学,机器学习方法理论上预测的结构可能足以理解许多生物过程。
然而,对于定量研究,如基于结构的药物设计,有必要通过实验验证计算预测。在这种情况下,计算预测可用于加速或辅助实验设计,而实验解决方案则可提供反馈,以进一步改进计算算法。通过结合两种方法的优势,我们可以实现更准确的预测,加快结构-功能关系的确定。
Anastassis Perrakis:
人工智能和实验将齐头并进。
人工智能现在能够理解和预测蛋白质结构的唯一原因是,我们用实验方法确定了数十万种结构,并将它们公布在蛋白质数据库中。现在,人工智能在确定单个蛋白质的结构方面已经非常出色,在确定蛋白质复合物的结构方面也越来越出色。
我们需要设计出更先进的人工智能,以便从这些新数据中学习。然后,我们将通过更复杂的结构问题来挑战自己。最终,更复杂的人工智能将窥见状态、动力学和相互作用,下一个挑战可能是首先测量然后理解细胞中的热力学。
总之,在未来的几十年里,还有大量的实验等着我们。
Andrea Thorn:
人工智能不能完全取代实验,因为这些工具不仅要根据实验数据进行训练,通常还要根据我们对数据的解释进行训练,而我们对数据的解释是有限的。
机器学习是一种非常有用的技术,可用于生成假设和发现数据中的潜在模式。一旦找到模式,例如主链的折叠低能态,机器学习就能为常规实验提供信息,甚至取代常规实验。
更令人兴奋的是,通过使用可解释人工智能技术,训练有素的神经网络可以成为理解潜在概念的起点。其中一种方法是”询问”给定输入的哪些部分是决定输出的最重要因素,例如通过层相关性传播。相关方法可以分析哪些神经元的贡献最大,因此我们不仅可以跟踪信息通过神经网络的路径,还可以通过神经网络训练获得分子或地图等的参数化。
大分子结构测定的新领域是什么?在不久的将来我们能期待什么?
Angela M. Gronenborn:
大分子结构测定必须超越”分而治之”的方法,不能再孤立地分析大分子。将来,我们将研究越来越少的生化重组系统,更多地研究从天然细胞或组织环境中分离的复合物和组件。
生物现象的复杂性与任何表征的内在不完整性相关联,因此需要使用实验、计算和理论等多种方法。众所周知,单个类型的结构数据在范围、准确性和通用性方面都是有限的,而以整合的方式使用互补信息有助于克服任何缺陷。这种整合将成为常态,并可通过机器学习加以推进。
白晓晨:
大多数蛋白质的结构和功能都受细胞环境中周围分子的调控,如细胞骨架、其他蛋白质、膜和小分子代谢物。在研究纯化蛋白质时,所获得的结构信息可能缺乏这些重要的细胞因素。
然而,低温电子显微镜的最新进展与子断层平均 (sub-tomogram averaging) 技术相结合,开辟了一个令人兴奋的新领域:直接观察细胞内的大分子机器或大型膜蛋白。这种方法不需要分离蛋白质,就能确定蛋白质复合物在其原生环境中的结构。
低温相关光电子显微镜(cryo-CLEM)与低温聚焦离子束(cryo-FIB)对细胞样本进行铣削(减薄)的强大组合,可精确定位细胞内的蛋白质复合物。与单粒子分析类似的子断层平均是一种新兴技术,可提高低温电子显微镜重建的分辨率。低温电子显微镜还可用于研究大型蛋白质团簇和液态凝聚体的结构,从而扩展我们对这些复杂细胞结构的了解。
另一个令人兴奋的前沿领域是利用低温电子显微镜对直接从动物组织中纯化的蛋白质复合物进行结构研究。低温电子显微镜所需的样品量比X射线晶体学所需的样品量要小,而且可以容许一定程度的杂质,因此分析来自原生来源的蛋白质复合物是可行的。通过将低温电子显微镜分析与质谱分析相结合,我们可以找出对复合物的形成和功能至关重要的不明显成分。
Tamir Gonen:
我相信,在未来10年内,我们将对关键膜蛋白有透彻的了解,我相信MicroED将在确定其他方法无法确定的结构方面发挥重要作用。
我们还需要更多地了解膜是如何组织的,以及这些蛋白质是如何在膜环境的大背景下工作的。这是人工智能目前正在努力解决的问题。实验性结构测定为我们提供了一个快照,但我们需要收集许多快照才能更好地了解这些蛋白质的功能。有了这些知识,我们就有可能开发出新的药物和治疗方法。
杨建益:
大分子结构测定的新前沿正在从结构的统计分析向结构的生物功能导向转变。
在不久的将来,实验数据(如低温电子显微镜密度图)与计算算法的结合将取得重大进展,将大大加快生物功能导向的结构的确定或预测,并降低成本。希望蛋白质组结构的确定在未来能像基因组测序一样容易,为更好地了解大分子的生物功能铺平道路。
Anastassis Perrakis:
我们已经看到了美好未来的曙光:在细胞内部,我们看到了核糖体的不同构象状态,我们确定了微管内的数十种蛋白质,我们列举了核糖体蛋白质和核糖核酸的翻译后修饰,我们正在拍摄病毒生命周期的快照。
在不久的将来,我们将获得更高的空间和时间分辨率,看到更小、更复杂的大分子机器,我们还可能了解细胞内的无膜区,以及相分离和蛋白质内在无序区在其形成过程中的作用。
Andrea Thorn:
我们的最终目标是了解活细胞中分子的功能和结构。这将需要在原子分辨率方法之间架起桥梁,还需要整合不同分析尺度的见解,并以有意义的计算方式将所有这些信息结合起来。
为此,我们需要克服科学中的可重复性危机,并在未来几年充分利用技术、自动化和机器学习方面的所有进步,这确实是一个激动人心的时刻。
参考资料
Bai XC, Gonen T, Gronenborn AM, Perrakis A, Thorn A, Yang J. Challenges and opportunities in macromolecular structure determination. Nat Rev Mol Cell Biol. 2023 Oct 17.
doi: 10.1038/s41580-023-00659-y.
——— End ———