Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

333次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Xiaojun Yao团队的一篇预测miRNA和药物关系的论文。研究表明许多药物的作用机制与miRNA有关。对miRNA与药物之间关系的深入研究可以为药物靶标发现、药物再定位和生物标志物研究等领域提供理论基础和实际方法。传统的用于测试miRNA药物敏感性的生物实验成本高且耗时。因此,在这一领域,基于序列或拓扑的深度学习方法以其高效和准确性而受到认可。然而,这些方法在处理稀疏拓扑和miRNA(药物)特征的高阶信息方面存在局限性。作者提出了一种基于图协同过滤的多视角对比学习模型GCFMCL,这是第一个将对比学习策略引入图协同过滤框架以预测miRNA与药物之间的敏感性关系的尝试。作者所提出的多视角对比学习有效地减轻了图协同过滤中异质节点噪声和图数据稀疏性的影响,显著提升了模型的性能。

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

人类基因组中只有约2%的基因编码成蛋白质,其余的基因被翻译成非编码RNA。miRNA是一种长度约为19-25个核苷酸的小型ncRNA。miRNA主要通过抑制或降解mRNA来调节基因表达,包括发育时机、宿主-病原体相互作用以及细胞分化、增殖、凋亡和肿瘤发生。此外,miRNA在生理和发育的不同层面上控制基因表达,因此它们与许多人类疾病密切相关。此外,在生物发育和生命活动中, miRNA发挥着关键作用。在造血过程中,造血干细胞(HSCs)通过转录和生长因子网络进行增殖、分化、成熟和凋亡。研究表明,在这些过程中,miR-223、miR-181和miR-142这三种miRNA在造血组织中具有优先表达。从进化角度来看,miRNA通过调节基因表达可能代表了一种简单但灵活的创新,这对于细胞分化至关重要。因此,miRNA的研究和针对miRNA的药物开发已经成为生物医学研究的一个课题。越来越多的研究显示,miRNA可以作为药物靶点,药物可以通过调节miRNA的表达来治疗疾病。例如,一些研究发现抑制miRNA-221的表达可以缓解哮喘患者的气道炎症,而增加miR-30d的表达可以阻碍胰腺癌细胞的生长和转移。因此,研究miRNA表达水平与疾病之间的关联具有巨大的临床应用和治疗意义。此外,miRNA可以在药物代谢和药物转运的过程中直接或间接参与,患者对药物的敏感性和耐药性的个体差异可能受到miRNA表达差异的影响。探索miRNA表达与药物作用之间的相关机制对于治疗疾病具有重要意义。然而,由于影响药物反应的因素多种多样,如药物积累减少、细胞内药物分布改变、细胞周期失调、DNA损伤增加修复和凋亡反应减少等,大多数药物和不同miRNA相关的耐药性和敏感性仍未得到充分探索。因此,开发一个准确高效的miRNA药物预测模型,以研究miRNA机制与靶向药物发展之间的关系,具有重要意义。

数据来源

为了验证提出的 GCFMCL 模型,文章采用了来自 DGNNMDA 的 miRNA-药物敏感性数据集,该数据集来自 NoncoRNA和 ncDR数据库。NoncoRNA 数据库包含了134种癌症、5568个非编码RNA和154种药物之间的关联,而 ncDR 数据库包括了140种药物和1039个非编码RNA之间的关联。数据集的筛选标准是研究人员只选择了经过实验证实的miRNA关联,因此排除了药物耐药性关联、通过预测而未经实验证实的关联以及所有非miRNA非编码RNA敏感性关联。通过应用上述筛选标准,研究人员最终获得了431个miRNA和140个药物之间的2049个miRNA-药物敏感性关联。这个数据集的稀疏性为0.96,充分反映了对比学习带来的模型性能提升。

问题定义

给定一个miRNA-药物敏感性的数据集,作者的目标是使用GCFMCL模型来识别潜在的miRNA-药物敏感性。这个模型接受miRNA-药物敏感性数据和特征矩阵,首先创建一个二分图来建模这些敏感性数据。然后,它利用基于拓扑结构的图协同过滤来聚合拓扑邻域信息。随后,作者提取偶数层邻域信息来形成邻域对比目标,并通过将它们视为特征对比目标来捕捉相似节点的高维中心特征,基于原始特征。提出的模型然后使用多次迭代来获取节点的最终特征表示。最后,采用深度学习框架对特征值进行非线性转换和调整特征维度,从而最终预测miRNA-药物敏感性。

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

1

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

图 2

图协同过滤技术可以基于图的拓扑结构和敏感性关系捕捉miRNA-药物之间的关系,从而更准确地预测潜在的相互作用。设置miRNA集合为R,药物集合为D,miRNA-药物敏感性矩阵S(|R|×|D|)表示观察到的敏感性关系,其中Sr,d=1仅当miRNAr和药物d之间存在敏感性时,否则Sr,d=0。基于图神经网络(GNN)的图协同过滤方法将敏感性数据R组织成一个交互图G={V,E},其中V={R∪D}表示节点集,E= (r,d)表示边集。模型的特征聚合过程如图1所示。现有的图协同过滤模型通过整合多层特征信息来推导图中节点的特征表示。大多数模型在传播过程中并未考虑节点类型的差异,忽略了交互图中的异质性,并未充分利用交互图中同类邻居的信息。miRNA-药物敏感性关系被构建为一个二分图,每个miRNA(药物)的直接最近邻是异质节点。为了充分利用相似节点的信息,作者提取了每个节点的偶数GNN层的聚合信息,以获取同类邻居的表示。通过这些特征表示,可以更有效地捕捉miRNA(药物)与其同类邻居之间的关系,将这些在miRNA-药物交互图中表达的信息称为拓扑信息。然后,miRNA(药物)的初始特征信息和偶数GNN层的输出被用作正对比对,其他节点的初始特征与偶数层聚合的输出进行对比作为负对比对,这个过程可以有效地减轻稀疏节点的特征聚合问题,补充和改进图协同过滤算法,最大限度地利用同类节点信息并减少节点异质性带来的负面影响(如图2所示)。

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

图 3

作者注意到在拓扑对比学习中存在交互图的异质性,并尝试通过使用同类邻居信息进行改进,但在计算损失值时很难对节点的异质性进行具体处理,这将不可避免地引入损失误差。因此,这个模型尝试使用特征对比学习来减少这种误差的影响。作者观察到一些节点具有类似的特征信息,但在交互图中没有相应的连接信息,这些节点之间的信息难以被图协同过滤等方法所利用。因此,作者提出使用特征信息聚类,将具有类似特征的miRNA(药物)划分为同一组,特征的相似性基于miRNA(药物)的最终特征表示。聚类到同一组表示更高的相似性。然后,作者使用miRNA(药物)集合的中心向量作为相似节点集合的特征表示,以获得节点特征中隐藏的对比信息。随后,作者将具有其相应的miRNA(药物)集合中心向量的miRNA(药物)节点作为正对比对,并将其他miRNA(药物)集合中心向量作为负对比对。图3表示了这个过程的简化形式。

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

图 4

模型结构如图4所示。首先,构建miRNA-药物二分图,以获取miRNA和药物之间的拓扑关系,然后通过特征矩阵为节点分配相应的特征向量。模型使用图协同过滤算法多次汇聚邻域信息,并保存每个层次的特征汇聚结果。然后,使用k均值算法对miRNA(药物)节点进行相似性聚类,形成节点与同一聚类的中心特征之间的正对比,以及与其他聚类的中心特征之间的负对比。接着进行对比学习,并在该步骤中使用InfoNCE作为损失函数。此外,模型还使用了拓扑对比学习,在协同过滤后形成一个节点与其偶数次邻居之间的正对比,以及偶数次邻居与其他节点之间的负对比,使用InfoNCE计算损失值。

实验部分

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

图 5

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

图 6

Brief. Bioinform. | 使用图协同过滤和多视角对比学习预测miRNA药物敏感性

表 1

作者将GCFMCL与其他八种方法进行了比较。5折交叉验证实验结果表明,GCFMCL在所有指标上取得了有希望的成果。图5展示了GCFMCL在五轮交叉验证中的ROC-AUC曲线。图6显示了AUPR曲线,并在表1中与八种先进方法的指标进行了比较。从表1中可以观察到,GMCLMDS在所有指标上都优于先前的八种先进模型,分别实现了95.28%的AUC、95.66%的AUPR和89.77%的F1分数。这表明模型的泛化能力有了显著的提升。此外,GMCLMDS的召回率和精确度分别增加了6.56%和3.14%,这表明模型在保持精确度的同时显著提升了识别敏感关联的能力。这表明GMCLMDS的改进是全面而有意义的。对于预测miRNA药物敏感性,GMCLMDS具有重要的实际意义。通过观察和分析其他比较模型,发现GCFMCL的主要优势在于多视图对比学习带来的抗噪能力。特别是,特征对比学习可以挖掘拓扑结构中不存在的邻域信息,纠正了图协同过滤过程中由节点异质性引起的一些错误,从而准确地表达了miRNA(药物)的特征信息。

结论

作者提出了GMCLMDS,一种基于图协同过滤的多视图对比学习模型。通过图协同过滤来聚合邻域信息,并采用拓扑对比学习和特征对比学习,该模型减轻了由异质节点引起的噪声和交互稀疏性的影响。经过广泛的比较实验,GMCLMDS超越了先前的最先进方法。该模型在正样本的区分能力方面为生化实验提供了出色的有针对性的指导,例如在药物开发中更好地揭示潜在的药物靶点,并为药物研究和开发提供新的见解。此外,该模型可以用于药物筛选,为特定miRNA表达谱选择具有良好治疗效果的药物。因此,GMCLMDS可以推动相关领域的进展,做出更重要的贡献。

参考资料

Jinhang Wei and others, GCFMCL: predicting miRNA-drug sensitivity using graph collaborative filtering and multi-view contrastive learning, Briefings in Bioinformatics, Volume 24, Issue 4, July 2023, bbad247

https://doi.org/10.1093/bib/bbad247

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy