Nat Methods｜scGPT：利用生成式AI构建单细胞多组学基础模型

2024年2月26日，来自加拿大多伦多大学的研究人员和微软联合在Nature Methods上发表研究scGPT: toward building a foundation model for single-cell multi-omics using generative AI。

研究人员利用单细胞测序数据，构建了一个单细胞生物学基础模型–scGPT，该模型基于一个生成式预训练变换器，跨越超过3300万个细胞的存储库。研究结果表明，scGPT能有效地提炼出有关基因和细胞的关键生物学观点。通过对迁移学习的进一步调整，scGPT可以得到优化，从而在各种下游应用中实现卓越的性能。

背景

单细胞RNA测序（scRNA-seq）能对不同类型的细胞进行复杂的表征，促进我们对疾病发病机制的了解，从而为细胞异质性探索、谱系追踪、致病机制阐明以及最终的个性化治疗策略铺平道路。scRNA-seq的广泛应用催生了人类细胞图谱（Human Cell Atlas）等综合性数据图谱，目前已涵盖数千万个细胞。测序技术的最新进展促进了数据模式的多样性，并将我们的认识从基因组学扩展到表观遗传学、转录组学和蛋白质组学，从而提供了多模式的见解。这些突破也提出了新的研究问题，如参考图谱、扰动预测和多组学整合。同时开发能够有效利用、增强和适应测序数据快速扩展的方法至关重要。

正文

单细胞转换器基础模型概述

单细胞测序可在单个细胞水平上分析分子特征。实验团队介绍的scGPT是单细胞领域的基础模型，采用生成式预训练方法。scGPT包括两个训练阶段：在大型细胞图谱上进行初始通用预训练，以及针对特定应用在较小数据集上进行后续微调。在预训练阶段，实验团队引入了专门设计的注意力掩码和生成训练管道，以自我监督的方式训练scGPT，从而共同优化细胞和基因表征。在训练过程中，模型逐渐学会根据细胞状态或基因表达线索生成细胞的基因表达。在微调阶段，预训练模型可以适应新的数据集和特定任务。

实验团队从CELLxGENE数据集中收集了3,300万个正常（非疾病）条件下的人类细胞的scRNA-seq数据。这个全面的数据集涵盖了来自51个器官或组织和441项研究的多种细胞类型，丰富地呈现了整个人体的细胞异质性。经过预训练后，实验团队使用均匀流形逼近和投影（UMAP）可视化技术，对3,300万个细胞中10%的人体细胞进行了scGPT细胞嵌入。

Nat Methods｜scGPT：利用生成式AI构建单细胞多组学基础模型

图1 scGPT工作流程

scGPT提高了细胞类型标注的精确度

为了对用于细胞类型标注的预训练scGPT进行微调，神经网络分类器将scGPT转换器输出的细胞嵌入作为输入，并输出细胞类型的分类预测。首先，实验团队将scGPT用于预测人类胰腺数据集中的细胞类型。接下来，实验团队在多发性硬化症（MS）疾病数据集上测试了该模型。此外，实验团队还利用肿瘤浸润髓系细胞数据集将模型应用于更具挑战性的跨疾病类型泛化场景。实验团队发现，与现有方法相比，scGPT在仅使用预训练权重的情况下就能获得具有竞争力的性能。通过在参考数据集上进行微调，可以进一步提高性能。

scGPT预测看不见的基因扰动反应

测序和基因编辑技术的最新进展极大地促进了大规模扰动实验，使细胞对各种基因扰动的反应得以表征。这种方法为发现新的基因相互作用和促进再生医学带来了巨大希望。然而，潜在基因扰动的巨大组合空间很快就超过了实验可行性的实际限制。为了克服这一限制，scGPT可用于利用从已知实验的细胞反应中获得的知识，并将其推断用于预测未知反应。利用基因维度上的自我注意机制，可以编码受扰动基因与其他基因反应之间错综复杂的相互作用。利用这种能力，scGPT可以有效地从现有实验数据中学习，并准确预测未知扰动的基因表达反应。

预测未知基因扰动

在扰动预测任务中，作者使用三个白血病细胞系的Perturb-seq数据集对模型进行了评估。结果表明，scGPT在预测扰动后变化方面表现出色，一直比其他数据集高出5-20%。

预测未知扰动反应的能力可以扩大扰动实验的范围。实验团队进一步验证了相应的预测表达量仅在这些区域较高，这与Norman数据集中CRISPRa（CRISPR介导的转录激活）Perturb-seq实验的预期结果一致。显性基因簇证明了scGPT发现扰动组合之间关联的能力。

Nat Methods｜scGPT：利用生成式AI构建单细胞多组学基础模型

图2 扰动响应和反向扰动的预测结果

计算反向扰动预测

scGPT还能预测给定细胞状态的遗传扰动来源，称之为计算反向扰动预测。进行这种反向预测的理想预测模型可用于推断细胞系发展的重要驱动基因，或促进潜在治疗基因靶点的发现。这种能力的一个假设应用实例是预测影响细胞从疾病状态中恢复的CRISPR靶基因。实验结果证明scGPT成功预测了产生观察结果的扰动源。

scGPT可实现多批次和多组学整合

多批次scRNA-seq整合

整合来自不同批次的多个scRNA-seq数据集在同时保持整合数据的生物变异性和消除技术批次效应方面提出了独特的挑战。为了整合测序样本，作者以自我监督的方式微调了scGPT，通过学习统一的细胞展示来恢复被掩盖的基因表达。

单细胞多组学整合

单细胞多组学（scMultiomic）数据结合了遗传调控的多种视角，如表观遗传、转录组学和翻译活动，在保留生物信号的同时聚合细胞表征是一项独特的挑战。在10x Multiome PBMC数据集（包括基因表达和染色质可及性联合测量）中，scGPT是唯一能成功为CD8+细胞生成独特群集的方法。接下来，作者在骨髓单核细胞（BMMCs）的基因表达和蛋白质丰度配对数据集上测试了scGPT，结果表明scGPT呈现出更清晰的聚类结构，AvgBIO分数提高了9%。

Nat Methods｜scGPT：利用生成式AI构建单细胞多组学基础模型图3 微调后的scGPT模型与scGLUE和Seurat（v.4）在10x Multiome PBMC数据集上进行细胞类型聚类任务的基准测试

scGPT发现特定细胞状态的基因网络

作者通过探查预训练或微调模型中的scGPT嵌入和注意力图，提出了GRN推断工作流程。在该研究中，根据已知的生物学原理验证了scGPT提取的基因网络，并探索了它在基因程序发现方面的适用性。

scGPT展示了其通过学习的基因标记嵌入将功能相关基因分组和区分功能不同基因的能力。scGPT能够发现表现出细胞特异性激活的有意义的基因程序。随后，利用scGPT的基因嵌入对基因程序进行筛选和聚类。值得注意的是，在所有聚类分辨率下，scGPT始终显示出更多的富集通路。此外，作者还研究了scGPT和共表达网络所识别路径的异同，scGPT独家识别出了另外22条通路，其中14条与免疫相关。这些发现表明，scGPT在捕捉基因与基因之间错综复杂的联系以及在更广泛的生物学背景下揭示特定机制方面具有卓越的能力。

Nat Methods｜scGPT：利用生成式AI构建单细胞多组学基础模型

图4 基于注意力的基因相互作用分析

除了利用基因嵌入进行数据集级的基因网络推断外，scGPT的注意力机制还能捕捉单细胞级的基因-基因相互作用。scGPT通过聚合注意力图谱中的单细胞信号，提取特定细胞状态的网络激活数据。这样就能深入了解单个细胞内特定环境下的基因调控相互作用，这些相互作用在不同的细胞状态和条件下可能会有所不同此外，在对照组与DDIT3基因敲除组受DDIT3影响最大的前100个基因中，scGPT发现了不同的通路激活模式。这些基于注意力的发现进一步验证了scGPT在细胞状态水平上的学习基因网络，为该模型的学习生物学提供了更多的可解释性。

迁移学习中的规模效应和情境效应

scGPT以迁移学习的方式通过微调展示了巨大的潜力。作者将该基础模型与针对每个下游任务从头开始训练的类似转换器模型进行了比较，从而进一步证实了使用该基础模型的好处。

首先，作者深入研究了预训练数据大小与微调模型性能之间的关系。作者探索的第二个因素是特定上下文预训练的影响。为了探索这一因素的影响，作者对来自各个主要器官的正常人细胞进行了七个器官特异性模型的预训练。在数据整合任务中表现最好的是在全人、血液和肺数据集上预训练的模型，这与COVID-19数据集中的细胞类型密切相关。值得注意的是，即使是大脑预训练模型，尽管是在包含1,300万个细胞的大型数据集上训练的，其性能也比数据集规模相似的血液预训练模型落后8%。这就强调了在预训练中将细胞背景与目标数据集相匹配对于在下游任务中取得优异成绩的重要性。虽然考虑细胞背景至关重要，但全人类预训练模型在广泛的应用中是一种多功能、可靠的选择。

总结

本文介绍的scGPT是一种基础模型，它能在大量单细胞数据上利用预训练变换器的力量。在语言模型自监督预训练取得成功的基础上，并在单细胞领域采用了类似的方法来揭示复杂的生物相互作用。在scGPT中使用变换器可以同时学习基因和细胞嵌入，这有助于对细胞过程的各个方面进行建模。通过利用变换器的注意机制，scGPT在单细胞水平上捕捉了基因与基因之间的相互作用，提供了额外的可解释性。

对于未来的发展方向，作者计划在更大规模、更多样化的数据集上进行预训练，包括多组学数据、空间组学数据和各种疾病情况。

参考资料scGPT: toward building a foundation model for single-cell multi-omics using generative AIhttps://nature.66557.net/articles/s41592-024-02201-0

——— End ———

2024 年 3 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

Nat Methods｜scGPT：利用生成式AI构建单细胞多组学基础模型

潞晨尤洋：日常办公没必要上私有模型，这三类企业才需要 | MEET2026

面向「空天具身智能」，北航团队提出星座规划新基准丨NeurIPS’25

商汤Seko2.0重磅发布，合作短剧登顶抖音AI短剧榜No.1

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

10亿美元OpenAI股权兑换迪士尼版权！米老鼠救Sora来了

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

10亿美元OpenAI股权兑换迪士尼版权！米老鼠救Sora来了

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

ToC智能体火得快，但更大的价值在企业丨中关村科金@MEET2026

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别

文心AIGC

潞晨尤洋：日常办公没必要上私有模型，这三类企业才需要 | MEET2026

面向「空天具身智能」，北航团队提出星座规划新基准丨NeurIPS’25

商汤Seko2.0重磅发布，合作短剧登顶抖音AI短剧榜No.1

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

10亿美元OpenAI股权兑换迪士尼版权！米老鼠救Sora来了

跳过“逐字生成”！蚂蚁集团赵俊博：扩散模型让我们能直接修改Token | MEET2026

10亿美元OpenAI股权兑换迪士尼版权！米老鼠救Sora来了

GPT-5.2果然反超谷歌Gemini 3 Pro！北大数院校友核心贡献

ToC智能体火得快，但更大的价值在企业丨中关村科金@MEET2026

IDC MarketScape: 容联云位居“中国AI赋能的联络中心”领导者类别