DuETT: Dual Event Time Transformer for Electronic Health Records
解决问题:本论文旨在解决电子健康记录(EHR)中的多变量时间序列数据建模问题,该数据具有高稀疏性和不规则观察,需要利用其时间序列性质、不同类型观察之间的语义关系和数据的稀疏结构信息。同时,论文试图验证使用DuETT架构在EHR数据上进行预训练可以提高多个下游任务的性能。
关键思路:论文提出了DuETT架构,它是Transformer的扩展,旨在同时关注时间和事件类型维度,从而在EHR数据上获得强大的表示能力。DuETT使用聚合输入,将稀疏时间序列转换为具有固定长度的常规序列,这降低了计算复杂度,并使得可以使用更大更深的神经网络。通过自监督预测任务进行训练,该模型在MIMIC-IV和PhysioNet-2012 EHR数据集的多个下游任务上优于现有的深度学习模型。
其他亮点:本论文的实验设计包括使用MIMIC-IV和PhysioNet-2012 EHR数据集进行测试,使用自监督预测任务进行模型预训练。此外,DuETT架构在EHR数据建模方面的创新之处在于它同时关注时间和事件类型维度,这是以前的Transformer模型所没有的。目前该论文的代码已经开源。
关于作者:本论文的主要作者来自加拿大多伦多大学,包括Alex Labach、Aslesha Pokhrel、Xiao Shi Huang和Saba Zuberi。他们之前的代表作包括利用深度学习进行电子病历分类和预测的研究,以及基于多任务学习的医疗图像分析研究。
相关研究:近期其他相关的研究包括:
-
“Multi-task Learning for Predicting Health Status Evolution of ICU Patients”,作者:Yu Zhang等,机构:华南理工大学。
-
“A Survey on Deep Learning in Electronic Health Records”,作者:Xiaojun Chen等,机构:悉尼科技大学。
-
“A Deep Learning Approach for Predicting Inpatient Length of Stay from Electronic Health Records”,作者:Xiaojun Chen等,机构:悉尼科技大学。
论文摘要:电子健康记录(EHR)通常包含大量数值时间序列数据,其特点是高度稀疏和不规则观测。对于这种数据的有效建模必须利用其时间序列性质、不同类型观测之间的语义关系以及数据的稀疏结构中的信息。自监督Transformer在NLP和计算机视觉的各种结构化任务中表现出了出色的性能。但是,多元时间序列数据包含两个维度上的结构化关系:时间和记录事件类型,而将Transformer直接应用于时间序列数据并没有利用这种独特的结构。自注意力层的二次缩放也可以显著限制输入序列长度,而不适当的输入工程会导致性能下降。我们引入了DuETT架构,这是Transformer的扩展,旨在同时关注时间和事件类型维度,从EHR数据中产生强大的表示。DuETT使用聚合输入,其中稀疏时间序列被转换为具有固定长度的常规序列;这降低了与以前的EHR Transformer模型相比的计算复杂度,并更重要的是,使使用更大和更深的神经网络成为可能。当用自监督预测任务进行训练时,我们的模型在MIMIC-IV和PhysioNet-2012 EHR数据集的多个下游任务上优于最先进的深度学习模型。