如果研究过AI+蛋白质生成的公司,一定对Generate:Biomedicines这家独角兽并不陌生。
这家公司不仅来自生物医药顶尖投资机构Flagship Pioneering,后者一手打造了千亿疫苗巨头Moderna。
还源于公司发布了引发行业振动的AI蛋白质生成模型,以及累计获得超7亿美元的融资。
近日,Generate:Biomedicines的联合创始人兼首席技术官Gevorg Grigoryan接受了媒体采访,谈了谈如何创办公司,以及战略布局。
累计融资7亿美元
Generate:Biomedicines成立于2018年,旨在通过人工智能(AI)技术来理解蛋白质序列、结构与其功能之间的关系,从而从头设计前所未见的全新蛋白质。
2022年底,Generate Bio公司开发出的Chroma模型引发了行业的震动,首次大规模将扩散模型用于精确的蛋白质设计,能够生成“自然界中完全不存在的蛋白质。”
由Generate Bio 公开的人工智能工具设计的对称蛋白质结构的计算机模型
2023年9月,Generate完成超2.73亿美元的C轮融资,使得累计投资额达到了,总共筹集了近 7 亿美元。
投资方包括未来资产、安进、英伟达风险投资和瑞士百达集团私募股权基金等多家国际知名机构共同投资。
同时这家公司也已经和安进、Roswell Park、以及MD安德森癌症中心达成合作,开发蛋白质和CAR-T疗法。
目前,这家公司拥有广泛的产品管线,涵盖免疫学、肿瘤学和传染病学。该团队已成功为第一位患者接种GB-0895和GB-0669。
公司已经启动了GB-0669的首次人体试验,该药物是一种靶向SARS-CoV-2刺突蛋白高度保守区域的单克隆抗体。公司其他管线涵盖免疫学、肿瘤学和传染病学。
已经有了Rosetta,为什么还需要新模型?
以下是关于Generate:Biomedicines首席技术官Gevorg Grigoryan的采访。
Gevorg Grigoryan此前担任达特茅斯学院,担任计算机科学、生物学和化学副教授。
2018年,由于深信数据驱动蛋白质设计的潜力,创立了 Generate:Biomedicines。目前他是首席技术官,负责公司打造公司的平台。
Q:您的职业生涯始于学术界,此前担任达特茅斯学院的教授。是什么促使您开始研究计算、数据驱动的方法来理解和描述蛋白质结构?
Gevorg Grigoryan:博士后研究期间,我注意到许多科学家通过观察蛋白质结构,准确地推断出它会做什么和不会做什么,以及设计是否有效。
这些很大程度上来自经验,但掌握这种经验需要数十年的时间,所以我在想是否可以使用数据驱动的统计方法来更快地帮助我们掌握蛋白质结构。
我提出了一个思考练习:如果发现了一个新的蛋白质结构,而你以前从未见过类似的结构,如何使用数据驱动的方法为它设计一个序列?
使用统计方法,我们能够从头开始设计可以折叠成这种蛋白质的序列。我意识到,在生成蛋白质设计领域正在发生一些真正特别的事情。随着时间的流逝,我开始相信这些技术对我们设计蛋白质的方式有很多影响,但该领域需要在数据和模型方面进行扩展,以使这些方法真正推广到所有蛋白质,并对生物药物发现产生影响。
Q:这种认识是如何促成Generate:Biomedicines成立的?
Gevorg Grigoryan:我最大的惊喜是创办 Generate,我从没想过我会离开学术界。大约在2016年,我联系了当时在麻省理工学院担任创业学客座教授的Noubar Afeyan(Flagship创始人)讨论生成蛋白设计。
我最初认为这个想法可以形成一个SaaS模型,为各种制药公司的生物药物发现提供服务。但Flagship 团队希望更加大胆,他们想建造一台生物技术平台,生产自己的各种生物药物。
Flagship和风险投资团队的热情和渴望激励着我。在学术界,我最开始都面临学者的反对,他们认为这个事情行不通。“我们已经有了Rosetta,为什么还需要这个?”
Q:Generate Biomedicine的战略是什么?自创办依赖情况发生了怎样的变化?
Gevorg Grigoryan:自 2018 年公司成立以来,战略发生了很大变化。起初,目标是证明蛋白质设计概念是有效的,并且可以建立真正可推广的模型。五年后,这些工具可以以前所未有的保真度生成此类设计。
因此,问题不再是“我如何用蛋白质做’x’?”,而是“如果我可以在蛋白质中设计任何功能,我如何最大限度地影响患者?
我们的战略是建立一家公司或机器,创建自己的数据,从这些数据中汲取见解,并生产生物制剂来影响患者的生活。我们的目标是将数据驱动的方法与这些早期的发现方法进一步整合到一个无缝的端到端数据驱动机器中。
Q:如何扩展 Generate Biomedicine 的数据驱动方法,使其更接近临床?
Gevorg Grigoryan:我们发现引擎的前提是运行多个具有各自优先级的程序。当我们收集数据时,这些数据会反馈到一个中心模型中。
随着我们的两个先导项目进入临床,我们希望将这一概念扩展到临床数据。我们希望构建数据基础设施、连接和信息学层,将我们收集的临床数据集成到一个中央模型中,以帮助限制和简化未来的临床试验。
理想情况下,作为一个行业,我们应该限制我们所做的人体试验数量。因此,现在的问题是如何从我们测试的每位患者中提取更多的数据和信息。
Q:Generate花费了3000万美元开设结构生物学实验室,能否解释一下内部数据生成对公司的重要性,以及您如何考虑生成哪些类型的数据?
Gevorg Grigoryan:结构数据对于可推广模型非常重要。虽然PDB(蛋白质银行)有不少数据,但显然存在代表性不足的领域:特别是蛋白质-蛋白质和抗体-抗原相互作用的结构。
大多数蛋白质模型都擅长单独预测功能,但下一步是让这些模型准确描述蛋白质如何在复合物发挥作用,并最终在更大的细胞和亚细胞结构的背景下发挥作用。
我们不仅专注于生成与我们感兴趣的靶点相关的结构,而且旨在创建多元化的结构。鉴于我们的目标是创建数据生成和利用机器,这项投资也有助于解决结构生物学瓶颈,以创建尖端和高效的流程。
Q:除了内部数据生成和收集外,公司是否会采集外部数据?
Gevorg Grigoryan:我们一直在思考这个问题。在临床方面,我们与MD安德森和Roswell Park的两次合作部分是由他们在特定患者群体中拥有的数据所推动的。在分子方面,我们也考虑过这一点,但棘手的部分是,大多数数据源都没有在收集或组织机器学习模型的情况下进行。这在尝试使用它来训练我们的模型时会产生额外的障碍。
Q:关于引发行业震动的蛋白质设计生成模型Chroma,其发布模型、开源包括团队上的关键点是什么?
Gevorg Grigoryan:我们觉得我们在蛋白质设计方面有一些有趣的话要说,并希望回馈社区。这篇论文中最重要的进展集中在可扩展性和调节方法上。实现线性二次缩放可以高效、快速地生成大型多链蛋白质结构。在条件反射方面,作为概念验证,我们证明了条件反射框架足够灵活,可以对文本进行调节,因此可以用通俗易懂的语言描述所需的蛋白质功能并生成所需的蛋白质。
Q:自Chroma 发表以来,您如何推进模型或思维方式?
Gevorg Grigoryan:在我看来,最重要的进步是调理方法——能够产生具有所需特性和功能的蛋白质。
现在的问题是,你如何进一步提高模型在条件生成方面的能力,你如何构建代表不同生物学功能和特性的好的蛋白质?这方面比较困难,因为它需要根据要条件的属性生成和引入特定数据集。例如,要知道蛋白质结构是否会在给定的pH值下折叠,或者酶是否会催化某种反应,需要来自特定测定的信息。
Q:公司如何立项?Generate平台的优势和劣势是否起作用?
Gevorg Grigoryan:对于我们的早期项目,我们选择了经过充分验证的靶点,其生物和商业风险最小。我们不想因为是一家早期公司而加剧这种风险,因为这家公司没有集体将化合物带入临床。
现在,我们选择的靶点越来越大胆。我们更频繁地使用我们的从头生成平台来选择以往可能没有考虑过的靶点。
Q:对于有抱负的生物技术创始人,您有什么非常规的建议吗?
Gevorg Grigoryan:总是以科学问题为驱动力,解决方案是次要的。如果你以这种方式受到激励,你永远不会失望,因为科学总是美丽的。
—The End—
推荐阅读