Nat. Mach. Intell. | 使用transformer学习单细胞RNA测序数据中的转录语法

今天为大家介绍的是来自Jesper Tegner团队的一篇论文。单细胞基因组学的兴起为依赖数据的机器学习算法提供了一个吸引人的机会。受到BERT在自然语言处理中成功的启发，Yang等人最近介绍了一种叫做scBERT的方法，这是一个数据驱动的工具，用于在单细胞基因组数据中标注细胞类型。与BERT中的上下文嵌入相似，scBERT利用预训练和自注意力机制来学习细胞的“转录语法”。在这里作者研究了超越原始数据集的可重用性，评估自然语言技术在单细胞基因组学中的泛化能力。

这篇文章中，作者评估了Yang及其同事报告的scBERT的可重用性。尽管在很大程度上能够复现他们的结果，但作者的发现表明，细胞类型分布比最初报告的影响更为重要。为了验证这一观察结果，作者在一个新的数据集上评估了scBERT。可以发现scBERT在细胞类型标注任务中表现良好，并且在检测新细胞类型方面的表现与论文中报告的数据集相似。然而结果表明，细胞类型分布影响了scBERT在新数据集上进行标注和新细胞类型检测任务的性能。者预计bert的使用将扩展到细胞类型标注之外，包括干扰响应预测、多模态整合和基因功能分析等一系列下游任务。更广泛地说，作者的分析表明，在使用bert进行下游分析时，不平衡的数据分布仍然是一个持续的挑战，应该在每个案例中仔细解决。

数据来源

为了进一步测试scBERT的性能，作者选用了2022年Kaggle竞赛中的NeurIPS数据集进行挑战。这个数据集可以通过Kaggle网站访问，涉及一个细胞类型标注任务，旨在预测七种不同的细胞类型。数据包括来自四位健康人类捐献者的外周动员CD34+细胞（HSPCs）的单细胞多组学数据。这个数据集是利用10X Chromium Single Cell Multiome ATAC + 基因表达技术（Multiome）生成的，该技术允许同时测量单个细胞中的基因表达（RNA）和染色质可访问性（ATAC）。因此，作者使用了这个多组学数据中的基因表达（RNA）进行实验。

评估细胞类型间的相似性

Nat. Mach. Intell. | 使用transformer学习单细胞RNA测序数据中的转录语法

图 1

在NeurIPS数据中评估细胞类型间的相似性对于理解细胞类型标注的细微差别和发现新细胞类型至关重要。作者使用UMAP图形（图1a）来可视化不同细胞类型之间的差异。作者还进行了细胞类型之间的相关性分析，以评估scBERT在NeurIPS数据集上进行细胞类型标注和新细胞类型检测任务的鲁棒性（图1b），从定性和定量两个角度提供了细胞类型间相似性的视角。这些发现表明，细胞类型之间存在显著的相关性。此外，UMAP图表显示，对应于每个细胞类型的个体簇彼此之间不足够区分开，如图1a所示。然而，必须认识到，在NeurIPS数据集中存在高度类间相似性，并不减少scBERT在细胞类型标注和新细胞类型检测方面的整体能力，如图2b,c所示。在应用于多样化且不那么同质的细胞群体的数据集时，scBERT展示出了稳健的性能。

Nat. Mach. Intell. | 使用transformer学习单细胞RNA测序数据中的转录语法

图 2

scBERT有预测细胞类型能力

Nat. Mach. Intell. | 使用transformer学习单细胞RNA测序数据中的转录语法

图 3

Nat. Mach. Intell. | 使用transformer学习单细胞RNA测序数据中的转录语法

表 1

使用NeurIPS数据预测细胞类型时，scBERT展现出良好的性能。七种细胞类型的数据集被分为两个子集，70%的数据用于训练，30%的数据用于测试。在训练子集上进一步进行了分割，以优化模型性能，80%的数据用于模型训练，剩余的20%用于验证。作者观察到，scBERT在这个新数据集上的表现更好，验证平均准确率值为0.8510，与Seurat相比，后者的验证平均准确率为0.8013（图3a）。作者使用Seurat进行比较，因为在细胞类型标注任务中，Seurat的表现仅次于scBERT。然而，scBERT在30%的测试数据上的平均准确率略有下降，为0.8397（表1），尽管这仍然优于Seurat，后者的平均准确率为0.8160，F1分数为0.6395（图2b）。与Seurat相比，scBERT在平均准确率值上展示了更好的性能。从配对t检验得到的P值为0.0004，表明scBERT相对于Seurat的性能改善在统计上是显著的。这些结果展示了使用预训练语言模型（如scBERT）进行细胞类型标注任务的潜在效用。利用这些模型中嵌入的预训练知识可以提高它们与从头开始训练的模型相比的性能。这与原始scBERT论文中报告的发现一致，其中作者进行了消融研究，证明了预训练在提高模型在细胞类型标注任务上的下游性能中的价值。

scBERT识别新细胞类型的能力

为了评估scBERT检测新细胞类型的能力，作者进行了留一实验，即在除一个细胞类型外的所有细胞类型上训练scBERT，然后评估其识别保留的细胞类型作为新细胞类型的能力。为此，作者遵循了原始论文中报告的相同步骤，应用了一个概率阈值<0.5，使得概率值小于0.5的细胞被视为未分配或新细胞类型。我们观察到，scBERT只能将中性粒细胞祖细胞（NeuP）识别为新细胞类型，并且在检测其他细胞类型作为新细胞类型时表现不佳（图2c），平均准确率得分为0.087。

平衡细胞分布提高scBERT效能

通过平衡细胞类型分布，亚采样提高了scBERT在细胞类型标注中的性能。如图2c和3b,c所示，scBERT在细胞数量较少的细胞类型（即细胞数量不平衡）上表现不佳。因此，因此作者很好奇细胞类型分布如何影响细胞类型标注。细胞类型的细胞分布如图2a所示。在NeurIPS数据集中观察到BP和MoP细胞分别由262和258个细胞组成。因此，作者将其他细胞类型亚采样至每种类型300个细胞，从而得到相对均匀的细胞分布（图2a）。可以观察到，按细胞类型平衡分布的细胞影响了F1分数。对于原始数据，F1分数为0.6395（表1）。相比之下，亚采样将F1分数提高到了0.7041（图2b和表1）。具体来说，由于比例较小而之前预测性能差的细胞，如BP细胞，其F1分数从0.0964增加到了0.6879（图2b），与其他细胞类型相比。作者还评估了scBERT在不同亚采样水平（150, 200, 250和350）的鲁棒性。作者发现，即使在改变亚采样水平并保持细胞类型之间的细胞分布接近时，scBERT在F1分数方面仍表现出更好的性能（图4a）。

平衡细胞分布提高scBERT识别新细胞类型的能力

通过在不同的亚采样水平上平衡细胞分布，可以增强scBERT使用NeurIPS数据检测新细胞类型的性能。细胞分布对于检测新细胞类型的影响之一是它可以影响检测它们的可能性。作者使用了与原始NeurIPS数据集相同的设置来检测新细胞类型，但作者使用了亚采样数据，即每种细胞类型300个细胞（BP=262个细胞，MoP=258个细胞）。细胞的均匀分布提高了新细胞类型的检测能力。平均准确率得分从0.087提高到了0.3187（图2c）。这表明，在检测新细胞类型时，细胞分布对于scBERT是至关重要的。作者还评估了scBERT在不同亚采样水平（即150、200、250和350）的鲁棒性。可以观察到，当不同细胞类型的细胞分布大致相等时，scBERT在不同的亚采样水平上仍然表现出更好的性能，如图4b所示。

过采样方法的影响

通过使用NeurIPS数据在不同的过采样水平上增加细胞类型数量，平衡细胞类型表征是否会提高或降低scBERT在标注和检测新细胞类型方面的性能。为此，作者利用“合成少数过采样技术”（SMOTE）进行了数据过采样。作者过采样了细胞数量较少的细胞类型，并增加了最多细胞数量（对于BP和MoP细胞类型为4600个细胞）的平均值。最后观察到，过采样将F1分数从0.7041略微提高到了0.7353（图4a）。此外还检验了scBERT在不同过采样水平（即1000、2000、3000、4000和5000个样本）的鲁棒性，并观察到，即使采样水平发生变化，scBERT在细胞类型标注任务中仍然表现良好，如图4a所示。然而，与数据中存在合理数量的不平衡（从0.087到0.181）相比，scBERT在检测新细胞类型方面仅显示出轻微的改善，但不及将每种细胞类型的亚采样量设置为300个细胞时的表现（0.3187）（图2c）。作者还评估了在增加过采样水平（即1000、2000、3000、4000和5000个样本）时scBERT的有效性。观察显示，与原始和各种亚采样分布的细胞类型相比，scBERT在这些不同的过采样水平上保持其性能，如图4a所示。这些结果表明，scBERT在一系列样本大小上展示出有效的性能。

编译 | 曾全晨

审稿 | 王建民

参考资料

Khan, S.A., Maillo, A., Lagani, V. et al. Reusability report: Learning the transcriptional grammar in single-cell RNA-sequencing data using transformers. Nat Mach Intell 5, 1437–1446 (2023).

https://doi.org/10.1038/s42256-023-00757-8

2024 年 3 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

Nat. Mach. Intell. | 使用transformer学习单细胞RNA测序数据中的转录语法

潞晨尤洋：日常办公没必要上私有模型，这三类企业才需要 | MEET2026

小说创作

“昆山杯”第二十七届清华大学创业大赛决赛举行

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

天下苦SaaS已久，企业级AI得靠「结果」说话

摩尔线程的野心，不藏了

摩尔线程的野心，不藏了

AI体育教练来了！中国团队打造SportsGPT，完成从数值评估到专业指导的智能转身

AI体育教练来了！中国团队打造SportsGPT，完成从数值评估到专业指导的智能转身

真正面向大模型的AI Infra，必须同时懂模型、系统、产业｜商汤大装置宣善明@MEET2026

文心AIGC

潞晨尤洋：日常办公没必要上私有模型，这三类企业才需要 | MEET2026

小说创作

“昆山杯”第二十七届清华大学创业大赛决赛举行

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

天下苦SaaS已久，企业级AI得靠「结果」说话

摩尔线程的野心，不藏了

摩尔线程的野心，不藏了

AI体育教练来了！中国团队打造SportsGPT，完成从数值评估到专业指导的智能转身

AI体育教练来了！中国团队打造SportsGPT，完成从数值评估到专业指导的智能转身

真正面向大模型的AI Infra，必须同时懂模型、系统、产业｜商汤大装置宣善明@MEET2026