本文介绍吉林大学李向涛教授课题组发表在Nature Communications的研究成果,题为“Dynamic characterization and interpretation for protein-RNA interactions across diverse cellular conditions using HDRNet”。RNA结合蛋白在基因表达调控中起着至关重要的作用,理解不同细胞条件下RNA和RBP之间的相互作用是理解RNA潜在功能的基础。然而,当前的计算方法主要集中于单细胞环境下的静态预测,因此对跨不同细胞系和组织环境的RNA-RBP结合事件的交叉预测提出了挑战。在这里,作者提出了HDRNet,一个基于深度学习的端到端框架,以精确预测不同细胞条件下的动态RBP结合事件。特别地,HDRNet采用了动态词嵌入和体内RNA二级结构信息以对不同细胞环境下的RNA功能位点进行动态表征,并构建了层次式多尺度残差网络以有效整合多源信息。随后,设计了深度RBP-RNA位点预测框架,以动态保留RNA序列中的显著区域。
结果
HDRNet概述
HDRNet框架能够利用多源生物信息中的鲁棒特征,帮助识别高度关注的结合峰,并对RBP结合数据进行后续分析,从而实现对RBP结合事件的准确预测,如图1所示。HDRNet管道由四个关键组件组成,旨在实现RBP相互作用的可靠预测。(1) 提取动态全局上下文信息和体内RNA二级结构信息,对RNA的序列和结构特性进行表征; (2) 提出了一种多源特征表示的统一对齐方法,将动态上下文信息和具有维度同质性的体内二级结构特征向量嵌入到特征表示中,生成潜在的特征表示; (3) 建立分层多尺度残差网络提取序列和结构信息,利用深度RBP-RNA位点预测框架计算RNA-RBP相互作用的结合评分,该框架逐步选取最显著的核苷酸特征; (4) 通过HDRNet模型学习到的潜在嵌入式表示可以捕获RNA序列的高聚焦结合峰和结合模式,以研究动态结合位点与人类疾病之间的关联。此外,还可在转录组的背景下共同解释基因调控机制,为疾病调控机制提供见解。
图1. HDRNet的整体框架
HDRNet在CLIP-seq数据上的动态预测任务方面性能卓越
作者在一共261个细胞系RBP结合数据(共172个RBP)中进行了多个实验。其中,有65个CLIP-seq数据集(共61个RBP)来自POSTAR数据库,196个eCLIP数据集(共61个RBP)来自ENCODE平台。为评估HDRNet预测RBP结合位点的准确率,作者采用了AUC作为评价指标。作者首先对HDRNet与6个计算方法在单细胞条件下的静态预测任务上进行比较,包括PrismNet,PRIESSTESS,DMSK,iDeep,DeepBind和GraphProt,结果表明HDRNet可以提供比这些方法更好的性能。之后,作者进一步比较HDRNet与这些方法在动态预测任务上的性能。动态预测旨在通过单细胞条件下的RBP结合数据学习其结合特性以预测其他组织环境中的结合位点。实验在62个eCLIP数据集(K562细胞系,HepG2细胞系)中进行。结果表明,HDRNet与其他算法相比能够取得卓越的动态预测性能。这表明HDRNet在RBP-RNA分析中具备更高的准确性和鲁棒性,为研究人员提供了一种强大的工具来解析RBP结合数据,揭示其潜在的转录调控机制。
HDRNet能够预测组织间的RBP动态结合位点
除了细胞系之间的动态预测任务,作者进一步在组织数据中验证HDRNet的动态预测能力,如图2所示。作者首先收集了MBNL2在海马体和额叶皮质组织中的结合数据。实验结果表明,HDRNet不仅可以有效完成跨组织的RBP结合位点动态预测任务,在不同生理环境条件(正常,疾病)下的动态预测中也同样表现出色。同时,HDRNet能高亮与疾病相关的显著RBP-RNA结合区域。其次,作者还探索了在细胞系数据中训练的HDRNet模型能否完成组织数据的动态预测任务。为了说明这一点,作者从ENCODE数据库中收集了DGCR8和HNRNPU的eCLIP数据(肾上腺组织)。实验结果表明HDRNet能够取得最佳的动态预测性能。并且,HDRNet成功使用在细胞系数据中训练的模型捕获到HNRNPU的G-四连体结合区域。最后,为验证HDRNet在不同平台数据中的可扩展性,作者收集了小鼠的MBNL1结合数据(大脑、心脏、肌肉和肌细胞)。与其他计算方法相比,HDRNet表现出优异的鲁棒性和可解释性,从而能够为后续的不同环境下的转录调控研究和病理研究提供新的见解。
图 2. HDRNet能够预测组织间的动态结合位点
从上下文信息和RNA二级结构的角度验证HDRNet
绝大多数RBP-RNA结合位点预测方法均采用静态RNA编码方法,这极大限制了动态环境下的RNA序列表征能力。因此,作者在HDRNet中采用了基于自注意力机制的RNA全局动态上下文表征,同时采用了体内RNA二级结构信息。为了证明其有效性,作者将原始HDRNet与五个使用不同静态特征编码方法的HDRNet进行比较,包括:One-Hot,Word2Vector,Doc2Vector,Glove和FastText。此外,作者还比较了二级结构信息对HDRNet预测性能的影响。AUC指标被用来估计不同版本HDRNet在261个数据集上的表现。
结果如图3所示。首先,在不同特征编码方法的比较实验中,不论是在静态预测任务还是动态预测任务,原始HDRNet均表现出最佳性能。同时,作者对模型输出的隐层特征进行相关性分析,结果表明采用动态上下文编码的HDRNet学习到的RBP结合特征具有更强的相关性。此外,RNA二级结构信息也是HDRNet预测性能的重要保证。
图 3. HDRNet对上下文和结构信息的验证研究。
HDRNet 的注意力机制揭示了具有生物学意义的可解释学习模式和Motif推理
为了研究HDRNet的可解释分析能力,作者在261个RBP结合数据集上进行了一系列下游分析,结果如图4所示。首先,作者通过自注意力上下文嵌入模型为每一个RBP提取其结合Motif,并通过与数据库比对以验证其准确性。其次,通过提取学习到的显著区域,发现HDRNet能够捕获RBP功能相关的结合峰,并且可以成功识别不同细胞条件下的特异性结合事件。进一步的,作者还探讨了体内生物学特征和动态上下文信息对 RNA-RBP 结合事件识别的贡献。通过对HDRNet的隐层特征进行t-SNE降维并可视化,可以发现伴随模型的学习过程,正、负样本被逐渐分为两个簇,证明了HDRNet学习架构的鲁棒性。之后,通过可视化模型输入的注意力分配权重,动态上下文信息和二级结构信息的高度关注区域重合,形成可能代表最终结合点的结合峰。此外,RNA序列信息比二级结构信息对于预测 RNA-RBP 相互作用更相关。总的来说,HDRNet在RBP-RNA结合位点预测中具有良好的可解释性,为进一步探索RBP的结合模式提供支撑。
图4. HDRNet的可解释研究
总结
在本文中,作者提出了 HDRNet,一种基于端到端深度学习的框架,可精确预测不同细胞条件下的动态 RBP 结合事件。HDRNet抛弃了传统的RNA序列表示方式,利用多源生物信息来表征RNA结合蛋白的结合模式。实验结果表明,HDRNet 可以准确有效地识别结合位点,特别是对于动态预测,在来自 eCLIP 和 CLIP-seq 的 261 个线性 RNA 数据集上优于其他最先进的模型,并补充了额外的组织数据。此外,作者还进行motif和解释分析,从不同角度为 RNA-RBP 相互作用的病理机制提供新的见解。最后,作者还从功能基因组的新角度进行分析,进一步探索了基因与人类疾病的关联,揭示了先前未表征的罕见病的分析结果。
参考资料
Zhu, H., Yang, Y., Wang, Y. et al. Dynamic characterization and interpretation for protein-RNA interactions across diverse cellular conditions using HDRNet. Nat Commun 14, 6824 (2023).
https://doi.org/10.1038/s41467-023-42547-1
代码
https://github.com/zhuhr213/HDRNet