新智元报道
编辑:Aeneas
【新智元导读】这个自动化蛋白质设计系统可以自己设计和测试新的蛋白质,不需要人类的帮助。就像一个能自己做实验的机器人科学家。它能通过自主学习自行进行蛋白质设计,同时在实验室里自动进行测试。
AI Agent,已经可以不需要人类帮助,就能自行设计和测试全新的蛋白质了!
这个AI能够自主学习蛋白质结构与功能关系。而且在糖苷水解酶领域创造出的新蛋白质,比原始蛋白质更稳定。
最近,威斯康星大学麦迪逊分校研究者的这项研究,登上了Nature子刊。
论文地址:https://www.nature.com/articles/s44286-023-00002-4
自主设计全新蛋白质
蛋白质工程在化学、能源和医学领域有着近乎无限的应用,但创造具有新功能的新蛋白质的工作,目前仍然是缓慢、劳动密集且效率低下。
威斯康星大学麦迪逊分校研究者,研究出了用于蛋白质景观探索的自动驾驶自主机器 (SAMPLE) 平台,可以用于完全自主的蛋白质工程。
SAMPLE由智能体驱动,这个智能体会学习蛋白的质序列-功能关系,设计新蛋白质,并将设计发送到全自动机器人系统。
这个系统会通过实验测试设计的蛋白质,并提供反馈,以提高智能体对系统的理解。
研究者部署了四种SAMPLE试剂,目的是设计具有增强耐热性的糖苷水解酶。
实验结果表明,尽管智能体的搜索行为存在个体差异,但四种药物都迅速收敛了在热稳定酶上。
可以说,这种自动驾驶实验室是自动化的,它加速了科学发现过程,在蛋白质工程和合成生物学领域具有巨大潜力。
实验过程
以往,研究者设计生物系统,是通过设计实验来测试假说,进行实验后解释结果数据,完善对系统的理解。
随着过程被迭代,研究者们会收敛生物学机制的知识,并设计出具有改进特性和行为的新系统。
然而,尽管在生物工程和合成生物学方面取得了显著的成就,但这一过程仍然非常低效、重复和费力,需要多个假设生成和测试周期,可能需要数年时间才能完成。
而机器人科学家和自动驾驶实验室,可以将自动化学习、推理和实验相结合,来加速科学发现,设计新的分子、材料和系统。
智能机器人系统可以跨不同数据源和数据模式进行学习,在不确定的情况下做出决策,不间断地连续运行,通过完整的元数据跟踪和实时数据共享,生成高度可重复、优于人类的数据。
自动驾驶实验室在蛋白质工程和合成生物学领域具有巨大的前景,但这些应用并没有那么容易,因为生物表型是复杂和非线性的,基因组搜索空间是高维的。
生物实验需要多个容易出错、难以自动化的手动处理步骤。
以前也有一些合成生物学的自动化工作流程的例子,需要一些人工输入和手动样本处理,但这些工作流程在没有人工干预的情况下,并不是完全自主的。
而本项研究中的这个用于蛋白质景观探索的自动驾驶自主机器 (SAMPLE) 平台,无需人工干预、反馈或主观性,即可快速设计蛋白质。
平台由智能体驱动,智能体从数据中学习蛋白质序列-功能关系,并设计新的蛋白质来测试假设。
智能体通过一个全自动的机器人系统与物理世界互动,通过合成基因、表达蛋白质和执行酶活性的生化测量,来测试设计的蛋白质。
智能体和实验自动化之间的无缝集成,可以实现完全自主的设计-测试-学习周期,以理解和优化序列-功能环境。
研究者部署了四种独立的SAMPLE试剂,来探索糖苷水解酶的前景,并发现了具有增强热耐受性的酶。
试剂的优化轨迹从探索性行为开始,目的是了解广泛的景观结构,然后迅速收敛到高度稳定的酶上,这些酶比初始序列至少稳定12°C。
可以观察到,由于实验测量噪声,各个智能体的搜索行为存在显著差异,但所有智能体在搜索不到整个景观的2%时,都能可靠地识别出热稳定设计。
SAMPLE智能体通过主动信息采集不断完善对景观的理解,SAMPLE可以有效地发现优化的蛋白质。
作为一个通用的蛋白质工程平台,SAMPLE可以广泛应用于生物工程和合成生物学。
结果:用于蛋白质工程的完全自主系统
在这项工作中,研究者试图建立一个完全自主的系统,来模仿人类的生物发现和设计过程。
人类研究者可以被视为在实验室环境中执行操作、接收数据作为反馈的智能体。
通过与实验室环境的反复互动,人类智能体可以理解系统、学习行为,以实现工程目标。
SAMPLE由一个智能体组成,这个智能体会在实验室环境中自主学习、做出决策并采取行动,以探索蛋白质序列-功能关系,并设计蛋白质(图1a)。
SAMPLE是一个用于蛋白质工程的完全自主系统
这个蛋白质适应度景观,描述了从序列到功能的映射,可以想象为山峰、山谷和山脊的陆地景观。
SAMPLE智能体,可以从最初未知的序列-功能景观中识别高活性适应度峰值(即性能最佳的序列)。
在这个过程中,智能体会主动查询环境以收集信息,并构建对景观的内部感知。
智能体必须在勘探和开发之间分配资源,以了解景观结构,并利用当前的景观知识来确定最佳序列配置。
研究者将智能体的蛋白质工程任务视为贝叶斯优化(BO)问题,该问题旨在优化未知的目标函数,并且必须在探索和开发之间进行有效的权衡。
SAMPLE智能体会使用高斯过程 (GP) 模型,从有限的实验观察中构建对适应度景观的理解。
这个模型必须考虑感兴趣的蛋白质功能,以及由于蛋白质结构不稳定而产生的景观中的非活性「孔」。
研究者会使用多输出GP,同时模拟蛋白质序列是否为活性/非活性以及感兴趣的连续蛋白质特性。
以先前发表的细胞色素P450数据为基准,该数据包括331个非活性序列和187个带有热稳定性标记的活性序列。多输出GP表现出出色的预测能力,具有83%的主动/非主动分类准确率,并且对于主动序列的子集,预测热稳定性时r=0.84
在序列函数数据上训练的GP模型,代表了SAMPLE智能体的当前知识,从这里开始,智能体必须决定接下来要评估哪些序列,以实现蛋白质工程目标。
BO技术解决了不确定性下顺序决策的问题。置信上限(UCB)算法迭代采样具有最大置信上限(预测均值加预测区间)的点,并被证明可以快速收敛到最佳点,样本效率高。
然而,UCB在蛋白质工程中的实现是有限的,因为景观中的非活动「孔」没有提供任何信息来改进模型。
因此,研究者设计了两种启发式BO方法,考虑主动/非主动GP分类器(P (active) )的输出,将采样重点放在功能序列上。
「UCB阳性」方法仅考虑GP分类器预测为活动序列的子集 (P (active) > 0.5),并选择具有最高UCB值的序列。「预期UCB」方法通过乘以GP 分类器P (active) 来获取UCB分数的期望值。研究者通过使用细胞色素P450数据运行10,000次模拟蛋白质工程实验,来测试这些方法
平均而言,UCB阳性和预期UCB方法仅通过26次测量,就发现了热稳定的P450,并且所需的样品比标准UCB和随机方法少三到四倍。
研究者还在批量设置中测试了BO方法,其中多个序列并行测试,发现在较小批量中运行实验略有好处。
该试剂设计蛋白质后,会将其发送到SAMPLE实验室环境,以提供实验反馈。
研究者开发了一种高度精简、稳健和通用的流程,用于自动化基因组装、无细胞蛋白表达和生化表征。
程序使用克隆组装预合成的DNA片段25 ,以产生完整的基因和基于T7的蛋白质表达所需的5’/3’非翻译区域。
然后通过聚合酶链反应扩增组装的表达盒,并使用荧光染料EvaGreen验证产物以检测双链DNA。
然后将扩增的表达盒直接添加到基于T7的游离蛋白表达试剂中,以产生靶蛋白。最后,使用比色/荧光测定法对表达的蛋白质进行表征,以评估其生化活性和性质。
在这项工作中,研究者专注于糖苷水解酶及其对高温的耐受性。
在链霉菌属的四种不同的糖苷水解酶家族1(GH1)酶上,研究者测试了自动化实验流程的重现性。
该系统可靠地测量了酶的热稳定性。
该过程需要∼1小时的基因组装,1小时的PCR,3小时的蛋白质表达,3 小时的热稳定性测量,以及9小时的从请求的蛋白质设计到物理蛋白质样品再到相应数据点。
GH1组合序列空间
基于云端的糖苷水解酶自主设计
应用SAMPLE的目的,就是导航和优化GH1的热稳定性图景。
研究者在Strateos云实验室上实施了实验管道,以增强其他研究人员的可扩展性和可访问性。
为此,他们部署四个独立的SAMPLE试剂,每个试剂都接种了相同的六个天然GH1序列。
智能体根据预期 UCB 标准设计序列,每轮选择三个序列,总共运行20轮(图 3a)。
这四种智能体的优化轨迹显示出景观的逐渐攀升,早期阶段以探索行为为特征,后期轮次一致地对热稳定设计进行采样。
在两种情况下,质量过滤器遗漏了错误数据,并错误地将热稳定性值分配给非活动序列。
研究者故意不纠正这些错误的数据点,以观察智能体在获取更多景观信息时,如何从错误中恢复。
有大量不确定的实验,如图3a底部的问号所示。
其中大多数是非活性酶的结果,试剂必须测试两次才能将其指定为非活性酶。大约9%的实验失败,可能是由于液体处理错误。
每种试剂发现的GH1序列,都要比六个初始天然序列至少稳定12°C。
智能体在搜索不到2%的完整组合景观时,就能识别出这些序列。
研究者可视化了智能体的搜索轨迹,发现每个智能体在收敛到相同的全局适应度峰值之前广泛探索了序列空间(图3b)。
所有四个智能体都到达了景观的相似区域,但每个智能体发现的顶部序列都是独一无二的。
热稳定序列往往由 P6F0、P1F2或P5F2和P1F3基因片段组成,这表明相应的氨基酸片段可能含有稳定残基和/或相互作用。
因此,可以相信智能体已经确定了1,352个成员组合序列空间的全局适应度峰值,因为所有四个智能体都收敛到同一个峰值,并且使用所有智能体收集的所有数据训练的GP模型,都预测到了与智能体发现的序列相似的顶级序列。
参考资料:https://www.nature.com/articles/s44286-023-00002-4