Nature | 医学领域,人工智能革命正在酝酿中。它会是什么样子呢?

482次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自 Mariana Lenharo的一篇文章。

Nature | 医学领域,人工智能革命正在酝酿中。它会是什么样子呢?

Jordan Perchik 在阿拉巴马大学伯明翰分校开始他的放射学住院医师生涯时,正值他所说的该领域的“人工智能恐慌”达到顶峰。那是在 2018 年,距计算机科学家 Geoffrey Hinton 宣称人们应该停止训练成为放射学家不到两年,因为机器学习工具将很快取代他们。Hinton,有时被称为人工智能(AI)的教父,预测这些系统很快将能够比人更好地读取和解释医学扫描和 X 射线。此后,申请放射学项目的人数大幅下降。Perchik 说:“人们担心他们完成住院医师培训后就找不到工作。”Hinton 有一定的道理。基于 AI 的工具越来越成为医疗保健的一部分;美国食品和药物管理局(FDA)已批准了 500 多种用于医学的工具。其中大多数与医学影像有关——用于增强图像、测量异常或标记测试结果以便后续跟进。

但即便在 Hinton 预测多年后,放射学家仍然非常受欢迎。大多数临床医生似乎对这些技术的表现并不十分满意。调查显示,尽管许多医生知道临床 AI 工具,但实际使用它们的比例只有 10% 到 30%。态度从谨慎乐观到完全不信任不等。“一些放射学家怀疑 AI 应用的质量和安全性,”荷兰乌得勒支大学医学中心的医学创新实施专家 Charisma Hehakaya 说。2019 年,她是一个团队的一员,该团队采访了荷兰的两位临床医生和医院管理人员,以了解他们对 AI 工具的看法。因为这种怀疑,她说,最新的方法有时会被放弃。

即便 AI 工具实现了它们的设计目标,但仍然不清楚这是否会转化为更好的患者护理。“这需要更为严密的分析,”Perchik 说。但人们似乎对一种有时被称为通用医学 AI 的方法越来越感到兴奋。这些模型是在大量数据集上训练的,很像驱动 ChatGPT 和其他 AI 聊天机器人的模型。在摄取了大量的医学图像和文本后,这些模型可以适应许多任务。与目前获得批准的工具为特定功能服务不同,这些通用模型将更像医生,评估扫描中的每个异常,并将其合成为类似于诊断的东西。尽管现在的 AI 爱好者倾向于避免对机器取代医生的大胆声明,但许多人认为,这些模型可以克服当前医学 AI 的某些局限性,而且有一天它们在某些情况下可能会超越医生。“对我来说,真正的目标是让 AI 帮助我们做人类不擅长的事情,”阿拉巴马州伯明翰市美国放射学院数据科学研究所的首席医疗官,放射学家 Bibb Allen 说。

目前的局限

医学领域的人工智能工具为医疗从业者提供了支持,例如快速扫描并标记出医生可能立即查看的潜在问题。这些工具有时能够发挥出色的效果。Perchik 回忆起有一次人工智能诊断标记了一个正在经历呼吸急促的人的胸部 CT 扫描。当时是凌晨3点,正值他的夜班工作。他优先处理了这个扫描,并同意人工智能评估,认为它显示了肺栓塞,这是一种潜在的致命情况,需要立即治疗。如果没有被标记,扫描可能直到那天晚些时候才会被评估。但如果人工智能犯了错误,就会产生相反的效果。Perchik说,他最近发现了一例人工智能未能标记的肺栓塞病例。他决定采取额外的审查步骤,这确认了他的评估,但减缓了他的工作速度。“如果我决定相信人工智能并继续前进,那么这种病可能会被漏诊。”

斯坦福大学人工智能医学与成像中心的放射学家 Curtis Langlotz 说,许多获得批准的设备不一定符合医生的需求。早期的人工智能医疗工具是根据可用的成像数据开发的,因此有些应用程序是为常见和容易发现的东西而构建的。“我不需要帮助检测肺炎”或骨折,Langlotz 说。尽管如此,仍然有多种工具可用于协助医生进行这些诊断。

另一个问题是,这些工具往往专注于特定的任务,而不是全面地解释医学检查——观察图像中可能相关的一切,考虑以前的结果和患者的临床历史。“尽管专注于检测几种疾病有一定的价值,但这并不反映放射科医生的真正认知工作,”马萨诸塞州波士顿哈佛医学院的计算机科学家 Pranav Rajpurkar 说。解决方案通常是增加更多的人工智能工具,但这也为医疗保健带来了挑战,伦敦谷歌健康的临床研究科学家 Alan Karthikesalingam 说。考虑一个人进行常规乳腺 X 线检查。技师可能会得到一个用于乳腺癌筛查的人工智能工具的协助。如果发现异常情况,同一个人可能需要进行磁共振成像(MRI)扫描以确认诊断,这可能需要单独的人工智能设备。如果诊断得到确认,病变会被手术切除,可能还有另一个人工智能系统来协助病理学。

他说:“如果您将其扩展到卫生系统的层面,您可以开始看到有关设备本身的选择以及如何整合它们、购买它们、监控它们、部署它们的诸多选择。这很容易变成一种 IT 大杂烩。”伯明翰大学的临床研究员 Xiaoxuan Liu 认为,许多医院不了解监控人工智能性能和安全性所涉及的挑战。她和她的同事识别出数千项医学成像研究,比较了深度学习模型与医疗保健专业人员的诊断性能。在团队评估的 69 项诊断准确性研究中,主要发现是大多数模型未使用与训练模型所用信息真正独立的数据集进行测试。这意味着这些研究可能高估了模型的性能。“现在在该领域越来越多地认识到模型必须进行外部验证。”但她补充说,“在世界上只有少数机构非常了解这一点”。在不测试模型的性能,特别是在将其用于实际应用的环境中的性能之前,不可能知道这些工具是否真的有帮助。

坚实的基础

为了解决医学中人工智能工具的一些局限性,研究人员一直在探索具有更广泛功能的医学人工智能。他们受到像ChatGPT这样的革命性大型语言模型的启发。目前已有一些科学家所说的基础模型的例子。“基础模型”这个术语是由斯坦福大学的科学家在2021年创造的,它描述了在广泛的数据集上训练的模型,这些数据集可以包括图像、文本和其他数据,使用一种称为自监督学习的方法。它们也被称为基本模型或预训练模型,是可以在以后适应不同任务的基础。大多数医院已经在使用的医学人工智能设备是使用有监督学习开发的。例如,使用这种方法训练一个模型来识别肺炎,需要专家分析大量的胸部X光片,并将其标记为“肺炎”或“非肺炎”,以教会系统识别与这种疾病相关的模式。在基础模型中,不需要对大量图像进行注释,这是一个昂贵且耗时的过程。同样,由伦敦Moorfields Eye Hospital的眼科医生Pearse Keane及其同事开发的医学基础模型使用了160万张视网膜照片和扫描,学习预测图像缺失部分应该是什么样子的。在这个预训练中,模型学习了视网膜的所有特征后,研究人员引入了几百张标记的图像,使其学习关于特定视力相关疾病的信息,如糖尿病视网膜病变和青光眼。该系统在检测这些眼病和预测通过眼部的微小变化可以检测到的全身性疾病,如心脏病和帕金森病方面优于先前的模型,该模型尚未在临床环境中进行测试。Keane表示,基础模型特别适合眼科学,因为几乎每一部分的眼睛都可以以高分辨率成像。并且有大量这些图像的数据集可以用于训练这些模型。“人工智能将改变医疗保健,”他说,“眼科可以成为其他医学专业的一个示例。”Karthikesalingam表示,基础模型是“一个非常灵活的框架”,它的特点似乎非常适合解决第一代医学人工智能工具的一些局限性。

大型科技公司已经在投资使用多种图像类型(包括皮肤照片、视网膜扫描、X光和病理切片)的医学成像基础模型,并结合电子健康记录和基因组数据。今年6月,加利福尼亚州山景城的谷歌研究院的科学家们发表了一篇论文,描述了他们称为REMEDIS(“鲁棒和高效的医学成像自监督”)的方法,该方法能够将诊断准确率提高最多11.5%(与使用有监督学习训练的人工智能工具相比)。研究发现,在大数据集的未标记图像上预训练模型后,只需要少量的标记图像就可以达到这些结果。“我们的关键见解是,REMEDIS能够以非常高效的方式,用很少的示例,学会如何对许多不同的事物进行分类,包括胸部X光、数字病理扫描和乳腺X光片,”Karthikesalingam说,他是论文的合著者之一。次月,谷歌研究人员在预印本中描述了他们如何将这种方法与公司的医学大型语言模型Med-PaLM结合在一起,Med-PaLM几乎可以像医生一样回答一些开放式的医学问题。结果是Med-PaLM Multimodal,这是一个能够不仅解释胸部X光图像,而且还能以自然语言草拟医学报告的单一人工智能系统。微软也在努力将语言和视觉整合到一个医学人工智能工具中。

今年6月,该公司的科学家们介绍了LLaVA-Med(生物医学的大型语言和视觉助手),它是在图像与从PubMed Central(一个公共可访问的生物医学文章数据库)提取的文本配对的基础上训练的。“一旦你做到这一点,那么你基本上可以开始与图像进行对话,就像你在和ChatGPT对话一样,”负责微软健康未来部门生物医学人工智能研究的计算机科学家Hoifung Poon说。他在华盛顿州雷德蒙的微软工作。这种方法的一个挑战是它需要大量的文本-图像配对。他和他的同事现在已经从PubMed Central收集了超过4600万对配对。随着这些模型在越来越多的数据上进行训练,一些科学家对它们能够识别人类无法识别的模式持乐观态度。Keane提到了谷歌研究人员在2018年描述的一项研究,该研究表明人工智能模型能够从视网膜图像中识别一个人的特征,如年龄和性别,这是即使是经验丰富的眼科医生也无法做到的。“所以,真正有希望的是,这些高维图像中嵌入了大量的科学信息。”Poon认为,人工智能工具在某些方面可能超越人类的能力,比如使用数字病理预测肿瘤对免疫疗法的反应。目前认为,肿瘤微环境——可以通过活检采样的癌症、非癌症和免疫细胞的混合物——影响个体对各种抗癌药物的反应。“如果你能看到数以百万计已经接受了检查点抑制剂或其他免疫疗法的患者,并且你看到了明显的反应者和非反应者,你也可能开始实际识别出许多专家可能看不到的模式。”人工智能在医学中的其他应用,例如将参与者与临床试验匹配,可能会产生更直接的影响。

Karthikesalingam还指出,即便是谷歌的医学成像人工智能取得的最佳结果,也仍然无法与人类相匹敌。“人类放射科医师的X光报告仍然被认为比最先进的多模式通用医学系统显著优越,”他说。尽管基础模型似乎特别有可能扩展医学人工智能工具的应用范围,但Karthikesalingam补充说,仍然有很长的路要走,以证明它们可以在临床护理中安全使用。“虽然我们希望大胆,但我们也认为负责任是非常重要的。”Perchik毫不怀疑人工智能在他的放射学领域的作用会继续增长,但他认为,人们需要接受培训以使用人工智能。2020年,他组织了一个为放射科医生提供的免费人工智能素养课程,该课程后来扩展到美国的25个项目。“我们所做的很多工作是揭示人工智能的神秘面纱,并展现在工智能的过热背后其现实的应用能力。”

参考资料

Mariana Lenharo (2023). An AI revolution is brewing in medicine. What will it look like?  Nature 622, 686-688 (2023) 

doi: https://doi.org/10.1038/d41586-023-03302-0

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy