基于扩散模型的DNA序列设计

596次阅读
没有评论

今天为大家介绍的是来自Guy-Bart Stan和Yiren Zhao团队的一篇论文。虽然生成对抗网络(GANs)在DNA生成领域得到了广泛关注,但它们常常面临样本多样性有限和模式崩溃的问题。与此相反,扩散模型作为一种新兴的生成模型类别,没有这些问题,并已在图像生成等领域达到最新水平。鉴于此,作者提出了一种新的潜在扩散模型,DiscDiff,专门用于离散DNA序列的生成。通过使用自动编码器将离散DNA序列嵌入到连续的潜在空间,模型能够利用连续扩散模型的强大生成能力来生成离散数据。

基于扩散模型的DNA序列设计

合成DNA序列设计传统上是基于广泛的实验室实验得出的特定生物数据的工作。随着这些工作产生的数据量增加,深度生成模型在合成DNA序列生成的新领域中展现出巨大潜力。生成对抗网络(GANs)在合成DNA序列的生成中是一种流行的选择,已有多项研究证明它的功效。尽管GANs能有效地生成序列,但研究显示这些生成的样本缺乏多样性,并在训练时遭受模式崩溃的问题。鉴于扩散模型在图像生成、蛋白质合成和电路设计方面的成功应用,将其应用于DNA序列生成可能会产生更高质量的序列。在这“质量”指的是序列的多样性以及捕捉基础分布/基序的能力。在此项工作中,作者提出了一种用于离散数据生成的潜在扩散模型,并将其应用于DNA序列生成。

DiscDiff模型部分

基于扩散模型的DNA序列设计

图 1

基于扩散模型的DNA序列设计

图 2

作者介绍了一种名为DiscDiff的灵活潜在扩散模型,专为离散数据生成而设计。该模型由两个主要组成部分构成:一个自编码器函数和一个去噪模型。转换函数采用轻量级的变分自编码器(VAE)实现,其中编码器将DNA输入转换为连续的潜在变量 z,解码器则将 z 还原回其离散DNA形式。去噪模型被用于从噪声中学习恢复潜在变量z。在训练过程中,自编码器函数和去噪模型的学习阶段是分开的。第一阶段专注于学习自编码器函数,其主要目标是最小化离散变量的重构损失。第二阶段则集中在训练去噪模型,旨在从噪声中恢复合理的潜在变量。模型的架构及详细信息见图1,2。

实验部分

基于扩散模型的DNA序列设计

图 3

基于扩散模型的DNA序列设计

图 4

基序分布:为了评估生成样本的质量,作者使用DiscDiff生成了50,000个哺乳动物和植物物种的DNA序列。它们的基序分布在图3中展示。图表显示了真实DNA序列和作者生成的启动子中TATA盒分布之间的一致性。此外,图4展示了训练过程中基序分布的演变。值得注意的是,虽然转录起始位点(TSS)周围的峰值分布趋于与真实DNA序列一致,但在经过200个训练周期后,背景分布似乎开始出现分化。这一趋势也被Fréchet重构距离(FReD)和Sei距离所捕捉。

基于扩散模型的DNA序列设计

图 5

基于扩散模型的DNA序列设计

表 1

空间分布距离:图5展示了在不同训练周期中,Fréchet重构距离(FReD)和Sei嵌入分布距离相对于训练集的变化情况。值得注意的是,这些度量与训练集显示出强烈的相关性:从第0周期到第200周期观察到分布距离急剧下降,随后逐渐稳定上升至第3000周期平稳。这一趋势凸显了使用单一数值指标衡量生成DNA序列质量的复杂性。作者将这些度量的上升(从第200周期到第3000周期)归因于基序分布的差异。即使随着训练时间的延长,转录起始位点(TSS)峰值的建模得到改进,基于嵌入的方法也倾向于优先考虑DNA序列的整体表达,而不是具体细节。然而,潜在分布距离仍然至关重要,因为它们有助于区分真实的DNA序列和随机或次优序列。根据表1,在比较变分自编码器(VAE)和DiscDiff时,VAE生成的示例在基序分布方面表现不太理想。

基于扩散模型的DNA序列设计

图 6

图6展示了50,000个生成的和真实DNA序列的染色质剖面。其中,y轴表示与每个剖面对应的序列数量。在这些剖面中,作者突出显示了数量最多的前10个剖面,并省略了细胞系名称以便于清晰呈现。生成序列(图6a)和训练数据(图6b)在分布和排名靠前的剖面方面有着惊人的相似性。值得注意的是,如H3K4me3、H3K27me3和H3K9me3等剖面占主导地位。H3Kxxme3标记与启动子活性密切相关,因为它们重塑染色质,使其更容易被转录因子(启动子调控的关键蛋白)访问。

编译 | 曾全晨

审稿 | 王建民

参考资料

Li, Z., Ni, Y., Huygelen, T. A. B., Das, A., Xia, G., Stan, G. B., & Zhao, Y. (2023). Latent Diffusion Model for DNA Sequence Generation. arXiv preprint arXiv:2310.06150.

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy