编译 | 曾全晨
审稿 | 王建民
今天为大家介绍的是来自Loïc A. Royer的一篇文章。生物图像分析领域正处于一个重大转型阶段之中,这要归功于成像技术和人工智能的进步。多模态基础模型的出现,类似于大型语言模型(如ChatGPT),但能够理解和处理生物图像,这具有巨大的潜力,有望引领生物图像分析领域进入一个革命性的时代。
创新成像技术与人工智能(AI)的结合将在未来15年显著影响生物图像分析。利用能够进行实时、高分辨率成像、深入组织并覆盖更多波长的先进仪器的潜力将对于在上下文和体内研究生物学至关重要。能够同时实时成像多种分子(如蛋白质、mRNA)的试剂将有助于揭示生命系统的复杂性。光学技术和物理学将有助于测量生命细胞和组织中的分子秩序、力、弹性、温度和流动等性质,从而提供有关生命物理学的见解。一旦获得了这些测量数据,我们将会面临图像分析的挑战,例如如何有效处理和分析高维度的显微镜数据集,并整合来自多个成像模态的信息。
图像分析旨在划定时空中的对象,了解它们的特征和关系,并编制支持或反驳假设的测量和统计数据。近年来,深度学习已经在实现这些目标方面取得了令人难以置信的进展。监督式对象分割,通常在显微镜图像中划定细胞、细胞核和细胞器等任务进行,已经接近解决。然而,监督式训练不具可扩展性,因为通过手动注释生成数据标签是乏味而繁重的工作。因此,下一个挑战将是以自监督或弱监督的方式自动识别、分类和跟踪对象。人工智能的一个巨大问题是,对于人类而言容易的任务对机器来说往往非常困难。人类能够快速理解如何在显微镜图像中划定、识别和分类对象,而无需明确的训练,但是为什么?这种能力从何而来?也许人类胜过机器的关键优势在于我们已经花费了一生来感知这个世界。这项假设的前提是,我们对世界的隐性知识包含在我们的感知总和中,可以推广到尚未见过的图像,即使是由我们的显微镜获取的图像也是如此。
最近开发的大型语言模型(LLM)如ChatGPT已经表明,当非常大的模型在包罗万象的语料库上进行训练时,可以实现令人难以置信的成就。LLM可以解决各种不同的任务,尽管它们从未明确地接受过这些任务的训练:将文本翻译成不同的语言,编写代码,解决难题,创作诗歌等。这些LLM是人工智能的一个新趋势的一部分:大型基础模型,它们需要数百万美元的成本在大规模的图像、文本、声音数据集或这些数据的组合上进行训练。这些模型通常以自监督的方式进行训练,消除了手动数据注释的需求。我们可以思考是否可以将这些思想应用于图像分析,以及是否可以构建一个“大视觉模型”(LVM),通过训练它使用来自自然界和显微镜的大规模图像语料库,从而能够理解生物图像。为了真正具有颠覆性,这样的模型不仅需要考虑图像,还需要理解文本命令并回答问题,就像ChatGPT今天所做的那样。
这样一个多模基础模型将使我们能够传达关于数据的任务和意图。我们可以要求这样的系统识别并列举图像中找到的所有结构,定义类别,提取属性并分析关系。在最理想和最具未来感的情景下,生物图像分析将变成一种思维和机器之间的对话:一个交替进行的过程,包括输入图像、手动注释、处理后的图像、命令、问题和回答。今天,解决复杂图像数据集的复杂对象识别、分割或跟踪任务有时可能需要一整个博士研究阶段的努力。在未来,与机器进行一小时的交流可能足以传达一个人的意图并通过对话来探索数据。机器会以示例图像回答问题,或提出后续问题以消除歧义并更好地理解意图。重要的是,它将使非专业人士能够从图像中提取见解。
目前,训练最先进的大型基础模型只对大型公司来说才具备经济可行性。幸运的是,最近对这些模型的训练的改进已经使得在更加适度的硬件上训练和使用这些模型成为可能。然而,实现生物图像分析的未来愿景需要资金支持。我们目前正处于一个变革时期,人工智能百年来的承诺正在迅速变成现实。作者希望最终证明这篇文章的标题应该是“未来5年内的生物图像分析”。
参考资料
Royer, L.A. The future of bioimage analysis: a dialog between mind and machine. Nat Methods 20, 951–952 (2023).
https://doi.org/10.1038/s41592-023-01930-y