生物计算的下一程是什么?
AlphaFold2的诞生掀起了生物+计算的浪潮,这项成果被评为2021年度十大科学突破成果之一。同年,由播禾创新&百图生科联合主办的首届生物计算大会,成为业界的标杆性盛会。
两年过去了,生物计算迎来了“后AlphaFold时代”,聚光灯焦点之外学术界不仅开始蓬勃发展,以IT+BT为核心的创业浪潮也不曾停歇。
如今医药行业对于AI/计算的看法开始回归理性,最初的兴奋与炒作褪去,我们需要更多实证与信心。
2023年9月3日,由播禾创新&百图生科联合主办的第二届中国生物计算大会于苏州工业园区再度开启,围绕“计算生物下一程”为主题,展开了专业报告和圆桌讨论,吸引了近1500位现场观众和上万名直播观众。
智药局作为此次大会合作媒体,全程参与了此次会议。我们观察到相较于传统医药会议参与者多为经验丰富的“老炮儿”,生物计算大会参会人员整体更加年轻,有不少名校教授携学生参与。
这是一个处于快速迭代与变革的行业,也是值得被记录的行业。
大模型成为主看点
2022年底,ChatGPT横空出世,随后开始赋能千行百业,人工智能迎来“iPhone”时刻。
前不久,英伟达交出了史上最亮眼的季报,其AI芯片业务超过游戏业务成为增长引擎,一个新的计算时代正在开启。
大模型在性能迭代,理解人类意图、思维链推理非常优异,本届计算生物大会上,“大模型”成为嘉宾们口中的高频词。
生物科学领域非常关注大模型,它对于靶点发现、蛋白质设计甚至合成生物学能不能带来一些新的变化?它能否帮助这些AI创业公司的产业化落地?
会上,北京智源人工智能研究院顾问、美国国家工程院外籍院士张宏江,以“大模型驱动的科研新范式”为题目,分享了他对AI大模型的看法,以及在科研和生命科学的应用。
张宏江院士
张宏江院士表示,以GPT3.0背后的BERT等大模型出现,是人工智能大模型的第三次浪潮,ChatGPT的发布则成为一个新的奇点。
人类学习的能力是随着时间而缓慢增长的,但机器学习能够厚积薄发,出现爆发式增长。ChatGPT是第一个理解了人类语言逻辑的AI,它将记忆、推理、理解集成为一体,并且远没有抵达能力上限,未来将在各行各业掀起巨大的变革。
张宏江指出,AI大模型将为科学研究带来新范式,著名数学家陶哲轩正在运用大模型协助解决数学问题。目前人们正在通往AI4S的ChatGPT时刻,届时AI系统具备科学家的智能,协助科学家扩展科学的边界。生命科学领域,大模型新范式有望解决大分子药物的设计复杂度问题,创造提升全球健康新可能。
AI4Science
除此之外,本届生物计算大会还首次设立了生物计算与大模型分论坛,共同探讨大模型用于生命科学的未来。
清华大学计算机系朱军教授“以多模态生成模型的进展与应用”,为大家介绍了通过引入高效能的计算,运用扩散模型持续迭代分子结构逆向设计。
中国科学技术大学讲席教授刘海燕阐释了深度学习在蛋白质设计中的应用,在多种基于数据驱动的深度学习下,ABACUS能够通过给定主链结构设计氨基酸序列,弥补基于传统能量函数设计的不足。
百图生科算法总监王太峰也为大家深入介绍了xTrimo大模型,该模型涵盖了生命科学里不同尺度的信息,包括从RNA、DNA、氨基酸序列以及单细胞基因互相之间的作用建模,各个方面实现生命科学大模型的建设。
王太峰称,xTrimo大模型能够解决 “AI + 生命科学”相关的问题,包括蛋白质结构预测、抗体抗原复合物的结构预测、亲和力预测,单细胞在扰动下面的响应预测等下游任务。
AI+生命科学的新拐点
首届生物计算大会上,嘉宾们大多谈论生命科学的计算新方法,第二届的会议上,不仅带来了新技术和新思路,更持续关注产业化闭环与落地的问题。
深圳理工大学计算机科学与控制工程院院长、讲席教授,中国科学院深圳先进技术研究院首席科学家潘毅院士,在《人工智能赋能生物医药:药物筛选与药物生成》的主题演讲中提出:人工智能真正实现落地需要六驾马车的共同拉动。
潘毅院士指出,人工智能通常有“三大马车”,即大数据、强算力和好算法,但仅凭这三个要素还无法成功。除此之外还需要赋智能,让通用模型学会领域知识的能力;第五个是可解释,让使用者认可输出结果;第六个是低能耗,降低计算成本才能让大模型广泛使用。
潘毅院士
圆桌论坛环节,主论坛以“生物计算的下一程”为题展开了深刻的讨论,重点关注产业落地及挑战。
薄荷天使基金主管合伙人冷艳担任主持人、百图生科CTO宋乐、清华大学智能产业研究院(AIR)高级访问教授、华深智药创始人及首席执行官彭健、西湖大学计算生物物理与药物设计实验室教授黄晶、灵犀云医学科技创始人闫宇翔均参与讨论。
主论坛圆桌讨论:生物计算下一程
在冷艳看来,计算对于生命科学的变革趋势非常明确,但讨论拐点的发生时间比讨论趋势本身更有意义,行业更希望看到短时间内AI能够解决的核心问题,而非边缘问题,但如今却充满挑战。
相较AI大模型对移动互联网领域的范式性变革,生命科学领域由于数据缺失或获取困难,加上湿实验验证周期漫长,使得模型的进化迭代与闭环验证之间呈现出不平衡与不匹配的状态。
如果说ChatGPT是互联网通用语言模型的拐点,那么究竟什么是生物计算的拐点?
宋乐认为,AI生命科学的拐点可能还没有到来。生命科学领域的基础模型一般晚于通用领域,目前能够看到AI模型在药物研发的单点环节进行提升,但对药物研发的整体赋能和涌现还未出现,或许就在不久的将来。
彭健表示,生物计算的拐点需要更多的证据,例如出现类似AlphaFold2的杀手级应用,运用AI或者计算的方法能够解决传统药物研发无法解决的重要问题。彭健认为,这个节点将在3-5年内出现。
对于该问题,西湖大学黄晶教授则持不一样的态度。
黄晶将拐点定义为一种共识,或者说一种确定性趋势,而目前行业已经越过了拐点。如今人们坚信以计算未驱动的方法将支持未来的药物设计,投入人力物力后,相信未来能看到未来会出现由AI或基本上由AI主导的新药出现。
闫宇翔认为,人们在拐点出现很长时间之后才会意识到原来那时候是拐点,例如GPT-1对于自然语言模型是一个重要拐点,当它出现时很少有人注意到它的重要性。
宋乐补充道,目前AI模型对生命科学的价值已经被证实,但真正对行业产生影响力,那它不仅应该为单个任务提供价值,还应具有可复制性可泛化性。例如针对难成药靶点,AI能够提供一种可行的路径,系统地解决问题。
AI制药既重要,又不重要
主论坛中,一位制药产业界人士讲出了对AI/计算生物的三大期望:
首先,AI不仅能够缩短分子结构发现的时间,得到的分子还能成功到达III期临床实验终点;其次,临床实验阶段,计算生物能够有更多的帮助;最后,对于任何一个靶点,在计算生物能实现靶点和药物的匹配,拓展更多治疗领域。
对比更加抽象的大模型,这些实际问题一直困扰着药物研发科学家们,而现阶段AI和计算手段却难以实现。
更贴近产业分论坛“生物计算与药物研发”中,几位拥有多年药物研发实战经验的嘉宾共同商讨了AI如何化解药物研发的瓶颈。
分论坛二圆桌讨论:AI制药,如何破解新药研发困局?
大家一致认为,“不管黑猫白猫,能够抓到耗子的就是好猫。”
对于计算团队,是用一个方法计算所有体系;但对以结果导向的药物研发团队,AI只是工具箱中一种,其他各种技术都会用到。
科辉智药创始人兼董事长朱振东博士称,AI和计算的方法对药物早期的作用是毋庸置疑的。朱博士曾在辉瑞等公司工作二十余年,当他2000年进入辉瑞工作时,辉瑞内部和计算相关的团队将近200人。在他看来,如果没有实质性影响,大药企不会建立庞大的计算团队。
药明康德国内新药研发服务部原副总裁、战略投资部顾问黎健博士认为,AIDD/CADD最重要的不是AI,而是aid(帮助)。AI并不是来指导药化学家的,它应该切实地辅助药化学家,其中重要一点为双方的交流讨论,并且形成可解释性。
黎健博士介绍,药明康德内部已经有一种达芬奇模型,能和化学人员进行互动。除此之外,药明康德拥有千亿级参与的DNA编码化合物库,也会大量用到干湿实验结合的方式进行大规模筛选。
既然AI作为药物研发的重要手段之一,那么各个AI+生命科技公司的解决之道是什么?
百图生科高级副总裁蒋昭实认为,首先要化解企业多元融合的问题,内部要有一种开放的文化,什么能够解决问题,就拥抱什么。疾病的复杂程度远超人们的想象,百图生科致力于建立生命科学大语言模型和免疫图谱,希望协助整体行业未来通过少量针对性的数据,减少对于临床队列的依赖。
星亢原联合创始人&XEO陈航很庆幸当初选择了AI+大分子领域创业。以AlphaFold代表的技术尽管没有解决实际研发问题,却带动了很多平行技术的产生,包括AI生成蛋白质等。在他看来,一家biotech对于AI技术的迭代是有思路可循的,一切源于从实际问题出发,这也驱使了星亢原从大分子一直延伸到PROTAC领域。
新技术,新方法
本次大会上,多位科学家向观众分享了人工智能和生命科学的跨界探索,在交流中寻找未来的方向。
“脑科学与人工智能交叉领域是无尽的科学前沿,人工智能的数学基础和脑科学基础是本领域未来取得突破的关键。”
蒋田仔院士
欧洲科学院外籍院士(MAE)、国际人脑图谱学会主席、中国科学院自动化研究所脑网络研究中心主任蒋田仔院士在分享中表示,为了认识每个脑区的功能,我们需要通过脑成像的方式在活体人上研究不同脑区的连接关系,而未来通过数字孪生脑,或将为相关疾病的药物开发带来更少的成本、更精准的结果。
北京大学前沿交叉学科研究院定量生物学中心博雅教授韩敬东带来了从计算生物学角度探索衰老的精彩分享,她的团队用支持向量回归(SVR)和深度卷积神经网络(CNN)构建了面部衰老时钟,推动我国抗衰老领域的发展。
复旦大学特聘教授、中山医院双聘教授、计算神经科学与类脑智能教育部重点实验室副主任赵兴明为大家了分享了其利用AI算法在微生物组学所做的工作。赵兴明教授主要介绍了宏基因组组装错误识别及校正算法metaMIC,以及宏基因组物种注释算法SemiBin。
以“高通量交联质谱学:系统解码蛋白相互作用网络”为题,柏林夏洛蒂医学大学蛋白组学教授、莱布尼茨分子药理研究所研究组长、质谱中心主任刘凡分享了她在蛋白质相互作用组的工作,通过AI模型预测和湿实验验证,系统地揭示了蛋白质组的作用关系。
基于结构的小分子药物发现开始逐渐受重视,但以往基于结构的大型化合物库筛选方法不仅耗时,且无法探索超大规模化学空间。西湖大学计算生物物理与药物设计实验室黄晶教授在会上分享了名为SWIT的策略,通过将靶标三维结构信息加入分子生成模型,增强分子对接和分子生成模型的精度。
同样来自西湖大学,生命科学学院生物编程实验室负责人陈子博助理教授介绍了从头设计蛋白质的工作。通过从头设计蛋白质和蛋白质回路,使它们编码信息并在试管和细胞中对生物行为进行编程,更好的控制细胞的功能。
AlphaFold带来了蛋白质结构预测的革命,但人们对于数据量稀少的RNA结构却知道得很少。大会上,广州实验室研究员、广州医科大学特聘教授、博士生导师苗智超分享了结构预测的下一个前沿——RNA结构预测,阐述其研究现状和历史。
尾声
此次生物计算大会,我们既看到了IT+BT迸发出的创新活力,也看到了企业和科学家在不确定性中寻找确定性的努力。
无论是科研还是创业,技术创新皆如同大海行舟,在达到彼岸之前是无边茫茫的大海。
云计算2006年就已经出现,但真正影响产业却在多年之后;英伟达耗费了近10年,才将其数据中心部门(GPU)从收入几乎可以不计,发展到如今最大的收入来源。
有创始人提出,如今投资人更看重初创公司的现金流,是否有度过越过寒冬的能力。
第二届中国生物计算大会上,能够直观感受到产学研投各界的热情,不过分炒作也不过分悲观,AI要解决传统生物医药难以解决的问题,仍然需要大量数据积累和模型迭代。
对此,播禾创新中心(adock)总经理乐晓桐在接受智药局采访中表示,“IT&BT融合是未来创新的风向标,任何新技术的发展都需要时间的打磨和沉淀,更需要一个充分交流互动的生态,催化创新资源之间产生更多的“化学反应”,这也正是播禾创新中心联合百图生科主办中国生物计算大会的初衷。播禾创新中心希望通过灵活交互的载体,科学的孵化服务和精准的生态链接,为融合创新者打造 a dock for fusion。”
一切需要时间,技术奇点时刻或许已然到来。
—The End—
推荐阅读