编译 | 曾全晨
审稿 | 王建民
今天为大家介绍的是来自Aman Mahajan团队的一篇论文。在手术前识别高风险不良结果的患者,可以为改善术后结果提供干预机会;然而,目前很少有用于自动预测的工具。作者的目的是评估仅使用电子健康记录中的数据来识别手术高风险不良结果的患者的自动机器学习模型的准确性。
全球范围内,致死率的前两大原因是心脏病和中风,合在一起占所有死亡事件的25%以上(1500万例)。令人惊讶的是,全球范围内第三大致死原因是术后30天内的死亡,估计每年有420万人(7.7%)死亡。虽然在美国疾病控制和预防中心发布的死亡表中没有单独列为一类,但术后30天的死亡率在COVID-19之前约占所有死因的第三位。美国每年估计进行了4840万例手术,其中高达15%的患者可能会出现术后30天的并发症。据估计,这些并发症每例可能会让医院花费超过11000美元,全国每年总计超过313.5亿美元。改善手术后的健康结果代表着一个巨大的机会,提高手术质量和医疗成本是医疗服务和支付机构的优先事项。在15%经历并发症的患者中,有50%的患者被视为高风险患者。为了减少手术并发症,改善术后结果,重点已经转向了对高危患者进行术前和术中护理。然而,很少有预测工具允许医院及时准确地识别这些高风险个体。目前用于识别高危患者的最流行的术前工具是全美外科质量改进计划(NSQIP)外科风险计算器(SRC),这是由美国外科医师学院(ACS)在393家机构开发的预测模型。进一步分析ACS-SRC显示,当应用于独特的手术、患者、机构和地区时,其预测准确性会在局部下降。其他机构创建了预测算法,如杜克大学健康创新研究所的Pythia计算器,在交叉验证中表现优于SRC。Pythia模型仅评估侵入性手术程序,不考虑数据缺失的患者,并需要在手术过程中发生的变量来进行最终预测;因此,作为术前风险模型,它有一定的局限性。
作者研究的目标是建立、部署和评估一个机器学习模型,使用患者电子健康记录(EHR)中的变量,在手术开始前,为所有患者和所有手术预测术后30天的死亡率和主要不良心脑血管事件(MACCEs)。为了提高模型的稳健性和准确性,作者使用了一个大型队列的数据(超过125万名患者)来开发和验证这个模型,并在另外20多万名不同患者上进行了进一步的前瞻性验证,然后将该模型部署到匹兹堡大学医学中心(UPMC)临床数据仓库(CDW)中进行每日预测。
数据来源
这些数据是从前来UPMC接受治疗的患者那里获取的,UPMC是一个综合性的医疗保健系统,包括40多家医院,这些医院都使用相同的电子健康记录系统进行互联。研究所使用的所有数据,包括这40家医院中的20家,都存储在UPMC临床分析部门的临床数据仓库(CDW)中,该仓库包含自2008年以来的超过3200万次临床接触记录。
图 1
在研究中,作者识别了在2012年12月1日至2019年5月31日期间接受任何麻醉服务的的外科手术,以开发机器学习模型。纳入研究的患者必须已经完成了手术,并在UPMC医院前有过一次医生的诊疗(见图1A)。接受手术的患者的最终数据集包括368个变量,其中包括3067个独立输入:麻醉类型和患者特征,包括人口统计学信息、历史性合并症、当前用药、计划手术日期最接近的先前住院信息、居住地社会经济因素和医疗保健社会决定因素等等。种族和民族信息是根据电子健康记录中的记录信息确定的。由于样本大小的原因,种族和民族的人数较少的群体被归类为其他。随后,在测试阶段,模型被悄悄部署(对临床医生来说是盲的),并在2019年6月1日至2020年5月30日期间计划进行手术的患者中进行了进一步评估,以确保模型评估的准确性。
模型
由于在临床护理期间收集的临床数据的数量和高维度,作者选择了梯度提升决策树作为首选的机器学习方法,用于预测术后30天死亡或心脑血管不良事件(MACCE)的概率。30天术后死亡包括在所有原因中归因于心脏疾病的死亡。尽管这些模型与随机森林类似,但梯度提升决策树的不同之处在于,树是按顺序建模的,随着后续模型的拟合,对被错误分类的数据进行加权。它们还能够在许多迭代中进行学习,并且对于数据缺失和冗余变量具有鲁棒性。这允许在模型开发的训练阶段学习许多特征的更复杂表示。作者选择了LightGBM模型。为了防止过拟合,在训练过程中执行了5倍交叉验证,同时调整了7个超参数:树深度、每个树的叶子数、学习率、正权重缩放、早停轮数、L1正则化和L2正则化。
实验结果
图 2
图 3
图 4
研究包括 1,477,561 名患者(806,148 名女性 [54.5%];平均[SD] 年龄为 56.8 [17.9] 岁;1,086,286 名白人 [89.8%],108,813 名黑人 [8.9%] 和 14,420 名其他 [1.1%],其中有 120,9519 名具有种族和民族数据的患者)。这些患者在 2012 年 12 月 1 日至 2019 年 5 月 31 日之间进行了 1,271,208 例外科手术。训练人口(图 1B)包括 1,016,966 例手术。然后,该模型在包括 254,242 例手术在内的测试集上进行了验证。
研究调查了两种不同的结果:1.术后 30 天死亡,2.术后 30 天 MACCE 或死亡(图 2A 和 B)。对于死亡,训练集的 AUROC 为 0.972(95% CI,0.971-0.973),测试集的 AUROC 为 0.946(95% CI,0.943-0.948)(图 2A)。对于 MACCE 或死亡模型,在训练队列上达到了 0.923(95% CI,0.922-0.924),在测试队列上达到了 0.899(95% CI,0.896-0.902)(图 2B)。这两个模型的训练和测试 AUROC 相似,没有显示出过拟合。前瞻性评估显示,死亡的 AUROC 为 0.956(95% CI,0.953-0.959)(图 3)。
为了增强模型的可解释性,作者使用了 SHAP 特征归因值来报告预测模型中最重要的特征。与 SHAP 特征归因值相关的与感兴趣结果的对数几率的变化值中,前 30 个最重要的特征如图 4 所示。SHAP 摘要图显示了每个特征对于每个特征的定量贡献的相对重要性以及特征与模型性能之间的范围和分布。根据 SHAP 值,年龄与两个模型的输出变化最大相关(图 4A 和 4B)。接受手术的患者年龄越大,他们在手术后 30 天发生 MACCE 或死亡结果的可能性就越大。较低的白蛋白水平是死亡模型中的一个重要因素,但不是 MACCE 模型中的因素。随着白蛋白值的降低,它通常会导致预测死亡概率的增加。镁在两个模型中都与结果的变化相关。
参考资料
Mahajan A, Esper S, Oo TH, et al. Development and Validation of a Machine Learning Model to Identify Patients Before Surgery at High Risk for Postoperative Adverse Events. JAMA Netw Open. 2023;6(7):e2322285. doi:10.1001/jamanetworkopen.2023.22285