编译 | 曾全晨
审稿 | 王建民
今天为大家介绍的是来自 Florian Jug团队的一篇文章。生物图像分析的未来越来越受深度学习和人工智能(AI)工具的发展和使用所影响。为了使这一趋势以对促进科学进展最有用的方式继续下去,需要多学科的社群合作,建立FAIR(可找到、可访问、可互操作和可重复使用)的数据共享,并提供可用和可重复的分析工具。
生物图像分析正处于一场革命之中,这场革命将深刻地塑造未来几十年的领域发展,这一革命得益于深度学习和人工智能的最新发展。在思考这种变革的未来时,人们常常会幻想当前的限制和问题都已得到解决。虽然想象这样的未来很容易,但更难的是想象如何从今天的现状过渡到期望的未来状态:这需要解决什么问题,以及如何实现。
在过去的十年中,人工智能已经彻底改变了生物图像分析。在生物医学文献中搜索“深度学习”一词的PubMed结果数量在2012年至2022年间大幅增加,而仅在2020年至2022年间,提及深度学习的PubMed索引文章数量就翻了一番。许多常见的生物图像分析任务,如分割和去噪,现在都采用了人工智能。对于许多用例,这些工具在速度和准确性方面都远远超过了它们的传统竞争对手。这些工具是生物发现的驱动力,有助于促进科学洞察力从原始图像数据中获得进展,这对于那些不依赖于人工智能的更传统的工具而言,要实现这些进展将会很困难或不可能。在许多领域,如计算显微镜学、多模态数据分析、细胞跟踪、表型分类和智能显微镜学,都有巨大的潜力等待被释放。
前方的挑战
在未来的十年里,从用户和人工智能工具的开发者的角度来看,我们预见到生物图像分析中人工智能发展面临两个主要挑战。从方法开发者的角度来看,需要提供更广泛的开放和标准化数据、元数据和地面实况标签,以推动技术的发展。这些数据应该使方法开发者能够解决当前阻碍生命科学领域科学进展的具有挑战性的分析问题。从用户的角度来看,目前在分析数据集时找到合适的模型并不是一项简单的任务。即使有许多模型可供用户公开使用,选择一个合适的模型需要一种评估模型预测质量在用户自己数据上的方法。事实上,由给定模型生成的预测需要经过批判性评估和仔细解释,以确保负责任地使用基于人工智能的工具。方法开发者必须通过提供适当的培训和提供可解释的质量指标工具来实现这一点。
突破性的人工智能研究需要大量FAIR数据
AI-based方法在许多分析任务中优于传统方法的原因在于它们可以从给定的训练数据中提取出最相关的先验知识。因此,经过训练的网络精确地定制为在特定数据类型的背景下解决特定的分析任务。这些训练数据必须具有足够的质量和数量,更重要的是,必须与高质量的专家注释配对使用。除了围绕训练数据的限制之外,还存在对参考数据集的未满足需求,这些数据集可用于比较和测试不断增长的常见生物图像分析应用程序的性能。今天存在一些基准数据集,但尽管它们的效用无可争议,但它们在质量、年龄和实际相关性方面存在着极大的差异。它们还没有共同的可访问性标准。这种缺乏共同标准使得难以在多个参考数据集上评估计算工具,使开发广泛通用技术更加困难。更好的参考数据集和工具比较方法将使生命科学家能够确定在不断增长的方法库中,哪种方法可以最好地解决给定的生物图像分析问题。
对大量经过良好注释和结构化数据的需求,需要就如何最好地统一和促进数据收集、注释、存储和访问达成共识。在未来,我们需要作为一个集体来决定如何解决这些挑战。不幸的是,个体AI研究人员可以实现这一目标的程度是有自然限制的。在未来十年,虽然肯定会需要在推动现代AI工具的方法和计算框架方面取得突破性进展,但同样需要更好的方式来生成、使用和共享数据。后者不仅需要解决存储和有效共享大型数据集的技术挑战,还需要就图像、图像元数据和注释的可接受格式达成共识。这还依赖于寻找或建立适当、稳定和长期的资金来源,以开发和维护所需的基础设施。FAIR原则在很大程度上是为了应对这些挑战而制定的,是解决图像数据问题的核心部分。在基于AI的生物图像分析背景下,可公开获得的FAIR数据允许社区记录关键的分析需求,并促进更好的方法、方法评估和用户界面工具的创建,最终支持提高科学发现速度的目标。
团结起来我们会变的更强
生命科学家和方法开发者之间的强化协作伙伴关系来应对上述挑战,有望产生一种积极反馈循环,加速技术发展和成功应用。然而,这种合作伙伴关系也面临着挑战。生命科学家生成大量的原始图像数据,在许多情况下是唯一能够提供专业标注的人。因此,他们是推动生物图像分析领域发展的关键合作伙伴。不幸的是,标注和以符合FAIR标准的方式存储新图像数据的工作量相当大,且在许多情况下几乎没有得到奖励。因此,我们应该改进现有或新创建的图像存档基础设施的数据提交程序,以使数据共享尽可能地减少技术摩擦。
然而,互惠的伙伴关系不仅要求生命科学家生成并提交符合FAIR标准的数据供方法开发者使用,还要求这些开发者投入时间和精力,将他们的方法转化为易于使用的工具,以满足生命科学家的分析需求。不幸的是,这种努力通常也未得到专业上的奖励。虽然生命科学家和方法开发者可能以间接方式受益,但科学界也必须努力创造更多的激励和奖励结构。最简单和最直接的行动是加强对计算工具的出版和引用,并建立数据引用的概念,该概念将与现有的科学成功度量相结合,并可以由招聘、晋升和终身聘任委员会以及资助审查小组使用。虽然在技术上相对容易实现,但广泛接受这样的引用作为科学产出的代表是一个具有挑战性的社会问题,没有简单的解决方案。更有效地将方法转化为工具也可以通过我们的社群在专业职位上聘用和支持更多的研究软件工程师和生物图像分析师来实现。这些人最适合将最新的方法纳入用户友好的软件工具,并可以直接与实验室科学家进行协作,帮助他们成功应用最合适的分析工具。只有计算科学家和生命科学家之间的密切合作和伙伴关系,才能促进更快、更有效地促进科学发现。
图 1
生命科学家和方法开发者之间的合作伙伴关系是一种双向的关系,涉及到提出的生物问题和专门的、有针对性的方法学的创建。这需要生物图像分析师、数据管理者、数据科学家以及研究软件和数据存档工程师共同努力构建一个开放和FAIR的数据基础设施(图1)。数据和数据标注应具有高质量,代表目前限制科学进展速度的各种类型的问题。这将使方法开发者能够选择并解决他们的方法可以处理的最有成效的问题。同时,模型需要公开共享,并具有足够的文档、可重用性和定量评估能力。这种方法将是提高生命科学和基于AI的生物图像分析研究的科学进展率的关键。
参考资料
Nogare, D.D., Hartley, M., Deschamps, J. et al. Using AI in bioimage analysis to elevate the rate of scientific discovery as a community. Nat Methods 20, 973–975 (2023).
https://doi.org/10.1038/s41592-023-01929-5