对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?

590次阅读
没有评论

对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?

对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?

不完全统计,目前中国10亿参数规模以上的大模型已发布79个,几乎每周都有新模型问世。

这些模型主为通用领域或是医学诊疗大模型在保守的生物医药领域,大模型却出现了讨论度很高,实际落地不足的情况

通用大模型的价值还未完全显现,生物医药需要大模型吗?需要怎样的大模型?出现大模型的时机还需要再等等吗?

事实是已经有公司行动起来了。

上周四,木分子发布新一代对话式药物研发助手ChatDD (Drug Design) 和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B

作为生物医药研发助手Copilot ,ChatDD可以服务医药研发全流程场景,从立项调研,早期药物发现,临床前研究到临床试验、药物重定位等各环节。

关于生物医药的大模型,智药局和清华大学国强教授,清华大学智能产业研究院(AIR)首席研究员聂再清聊了聊,他同时是水木分子的首席科学家。

对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?

博士毕业后,聂再清加入微软亚洲研究院,十三年里他和团队做出了微软学术搜索、人立方等多款产品。2017年,他成为阿里巴巴达摩研究院首批招揽的AI大牛之一,成功孵化”天猫精灵“这一爆款产品。

2020年,聂再清受邀回到清华大学智能产业研究院(AIR)担任首席研究员。近期担任初创公司水木分子首席科学家,目标是打造生物医药的基础大模型,近期已完成千万级种子轮融资。

面对疑问,聂再清表示:”等一个时机对我们而言不重要,我们的核心是能不能为用户产生价值,只要能产生价值,什么时候做大模型都可以。“

对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?

大模型与小数据模型并不冲突


Q

从背景上看,您是算法出身,又深耕互联网多年,是什么样的契机让您关注生物医药领域?

聂再清:在微软期间,我很大一部分工作集中在学术搜索,目的是协助科研人员从论文里面找到信息。后面去了阿里巴巴达摩院,成功孵化了“天猫精灵”,它本质上是一种对话式的智能助手。


来到清华AIR(清华智能产业研究院)后,智慧医疗是其中很重要的方向,我负责大数据人工智能实验室,也很大程度上支持和参与了相关研究。

医药研发本身对各种论文、专利和各种实验数据的需求很高,和学术搜索的工作很像。天猫精灵又和ChatGPT有很多相似之处,它们都希望通过自然语言对话的交互,帮助用户完成任务。


因此无论是学术搜索,还是对话式助手,生物医药大模型将我以往的经历都结合起来了,于是决定和团队一起开发对话式药物研发助手。

Q

您和团队在今年4月份发布了BioMedGPT,水木分子是根据该研究转化而来的吗?

聂再清:BioMedGPT主要用于科研领域,定位于生物医药科研的基础模型。我们的模型发布之后,有药企找上门来表示很感兴趣,也让我们看到了它的潜力。

我自己的性格也比较喜欢实用的东西,希望把技术用到现实世界中,能够拿到用户反馈,再及时地调整技术研发。所以我们决定以公司的形式进行孵化,不仅能调用更多的资源,还能获得用户的反馈,更好的推动应用落地,产生产业价值。

Q

能介绍一下水木分子的团队情况吗?

聂再清:我们团队主要分为几部分构成,一部分是算法团队构建大模型,还有工程团队,他们会紧密配合算法团队进行基础设施,另外还有数据团队做一些数据清洗工作,以及生物医药的科学家团队。

当然我个人更喜欢研究技术和产品,在公司担任首席科学官,更多精力将投入到多模态大模型的创新研发中,具体的商业化和落地会请更专业的人士来做。

Q

您觉得大模型解决了生物医药什么核心问题?它跟一般AIDD软件有什么区别?

聂再清:首先我并不认为依靠AI直接能够做出药来,但我认为研发人员需要很好的AI工具。科学家的经验和直觉非常宝贵,但是他们不可能覆盖所有的生物医学知识,但机器擅长读大量的文献、专利,通过提问的方式激发大模型去把相应的信息组织出来,会大大提升药物研发的效率。

所以我们希望解决的是怎么高效地连接生物医药科学家头脑中的经验和直觉,把它这个经验和直觉和分子结构、海量的数据和知识、各种 AIDD的模型和工具建立一个连接,将科学家大脑的经验和直觉能跟海量外部信息融会贯通。

Q

有观点认为生物医药不需要大模型,而是根据小数据解决特定的任务,当前AI的泛化能力还不够,您怎么看?

聂再清:小数据的确在普遍意义上的AIDD模型发挥了效用,主要原因应该是当前有监督的训练数据不多。但是也有很多自监督学习的方案,可以来通过预训练的方式形成大模型,最后能够帮助大家更好地运用小数据执行任务,这是我们做大模型的意义。


对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?大模型有三大迭代方向

Q

专业领域的 AI 模型,可解释性其实非常重要,大模型如何让药物研发人员相信生成结果?

聂再清:其实这也是大模型的优势所在,如果AI简单地输出一个分子结构,本质上很难和研发人员解释。人类有很多知识是通过语言传达的,所以我们耗费很多精力将生物学编码语言和自然语言进行对齐翻译,能够对科研人员进行解释。研发人员可以一轮一轮地和大模型对话,最终生成想要的东西。

Q

OpenAI 为例,大模型的更新迭代其实非常重要,您认为生物医药大模型或者Chat DD 未来的迭代的空间在哪? 

聂再清:我认为有几个方向都可以发展。首先,目前对生物信息的单模态表示学习有很大空间,包括蛋白大分子、细胞、基因;其次,关于生物编码语言(以及化学分子语言)和自然语言的对齐,例如怎么描述分子的结构和功能,怎么进行对话都可以迭代;另外关于使用场景理解和拓展,大模型智能体如何调用各种工具和外面的数据,去有效地、实时地把最有用的信息推荐出来或结果计算出来。当然还有和湿实验平台集成和连接等,都可以去尝试。

Q

ChatDD 现在的数据源主要是哪些方面?就未来公司如何建立数据壁垒?

聂再清:ChatDD是个语言模型,因此本身就有很多通用语料,当然还包括很多垂直语料,例如生物医学文献、专利数据等。此外还包括生物信息数据,例如蛋白质序列、氨基酸序列等多模态数据。

未来我们可能会通过干湿结合的方式不断积累湿实验数据,这些数据和下游应用高度关联,会对大模型的效用有很大程度上的提升。此外我们还会交给专家使用,他们的指令也是非常好的数据,将和大模型形成闭环。

Q

那么主要还是以已经有的数据,例如文献资料、分子结构和序列数据是吗?

聂再清:现阶段是这样的,但未来模型进入使用真正使用阶段就不一样了,我们会自己生产数据,或者通过水木分子购买数据,这部分数据就属于我们自己。                                                                                  

ChatDD也会进行私有化部署,利用客户内部的数据对模型进行优化。例如水木分子和复星医药的合作,依据他们的应用场景进行模型私有化部署和应用开发。虽然它不会变成水木分子的一部分,但它会成为我们提供的解决方案的一部分。

Q

以大模型的形态,未来水木分子打算如何商业化?

聂再清:目前公司才成立不久,处于大模型研发和产品打磨阶段,但我想可以稍微谈一谈。水木分子未来的商业化既可以 toB也可以toC,例如医药研发人员通过账号订阅服务,或者为公司做本地私有化部署,这是我们起步阶段比较容易实现的方式。后面我们其实也可以做基于大模型的CRO,包括所有能够跟大模型相关的 CRO 服务,只要能够提升药物研发的效率,都可以参与。

—The End—
推荐阅读

对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?对话清华大学聂再清教授:首个千亿生物医药chatGPT是如何炼成的?

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy