谷歌又放大招,这次要玩转基因变异了吗?

533次阅读
没有评论

谷歌又放大招,这次要玩转基因变异了吗?

点击蓝字 关注我们

谷歌又放大招,这次要玩转基因变异了吗?

微末生物

Nanomega BioAI

Google DeepMind团队日前在Science杂志发表题为“Accurate proteome-wide missense variant effect prediction with AlphaMissense”的最新研究成果,介绍了基于蛋白质结构预测工具AlphaFold改进的深度学习模型AlphaMissense在预测蛋白质单点变异效应方面的卓越表现。

单点难题:变异效应测不准

蛋白质的空间结构决定了其特有生物学功能的实现,任何单个氨基酸的突变都可能影响这一空间结构而导致功能的改变。

然而,长期以来,科研界对单点变异对蛋白质功能影响的认识和预测仍比较有限。

在人类基因组中,已发现4000多万个蛋白质变异位点,但其中只有不足2%能明确分类为致病性或良性。如何准确预测这些未知临床意义变异的致病性,是当前遗传学领域的重要难题。如果可以准确预测单个蛋白质的单点变异效应,将可以极大推动遗传性疾病的诊断和药物开发等应用。

改良新模型 破局蛋白质突变

谷歌又放大招,这次要玩转基因变异了吗?

图1 AlphaMissense的工作流

AlphaMissense模型在结构设计上秉承了AlphaFold的核心理念,同样利用了级联设置的双网络完成模型训练。其中,AlphaFold已经在去年证明,通过多层神经网络的堆叠,可以实现对任意输入氨基酸序列到蛋白质三维空间构象的高精度预测。这为后续在蛋白结构基础上进行的下游分析和推断奠定了坚实基石。

在AlphaFold奠基的结构预测能力之上,AlphaMissense模型进一步通过两大阶段的训练,建立了变异效应的精确判断体系:

第一阶段:

模型从数以亿计的人类及其他生物的蛋白质序列比对数据中,学习抽取构建蛋白质复杂结构所需要的相关特征。这一过程与AlphaFold中用于从大规模多序列比对中理解蛋白质序列约束的预训练过程是高度一致的。

值得注意的是,研究人员在这里对AlphaFold的原始结构做了一定优化,包括网络宽度的扩大,以及增强了模型中用于学习蛋白语言学特征的损失函数权重。这是为了让模型在预测变异效应之前,可以学习到更加丰富多样的氨基酸组合模式。

第二阶段:

利用已知的人类及灵长类物种基因组数据库中广泛存在的已知变异,微调模型以区分不同变异的致病性高低。这一训练阶段的创新在于,研究人员通过常见变异和未见变异分别标记为良性和致病性,避免了人工主观偏差。

另外,考虑到基因间变异率差异大的事实,团队自定义了一种三联体序列特征级的平衡化采样策略。这种策略可以减轻数据在个体蛋白质间的分布偏差,使得模型可以在更加中立的情况下学习蛋白变异的普适规律,从而减少了训练集对判断性能的决定影响。

3大法宝 破解蛋白质变异难题

谷歌又放大招,这次要玩转基因变异了吗?

图2 AlphaMissense的与其他预测软件比较中脱颖而出

预测蛋白质单点变异效应一直都是生命科学领域的“百年难题”,AlphaMissense正是凭借序列信息、结构信息以及进化信息这三大独门法宝来破解这一难题。序列信息,对应蛋白语言模型部分,让模型理解氨基酸组合模式的语法;结构信息,对应空间几何部分,让模型明确变异对折叠形态影响;进化信息,对应多序列比对部分,让模型学会区分新奇和保守。

在多种测试中,AlphaMissense直接利用AlphaFold本身的三大信息来源,证明了其预测性能显著优于所有模型。在人工标注的ClinVar数据库上,AlphaMissense直接利用AlphaFold对序列信息和结构信息的深刻理解,超越了其他模型。

谷歌又放大招,这次要玩转基因变异了吗?

3 AlphaMissense的分析实例。图左为人体葡萄糖传感器GCK蛋白的实验三维结构。颜色表示AlphaMissense模型预测的每个氨基酸位点的平均致病性,蓝色越低,红色越高。其中,配体结合口袋以及变构调节区域的预测均与实验高度吻合;

图右直观展示了AlphaMissense模型对已知的36个GCK临床突变效应的预测值,与实验测定的蛋白相对活性指数进行了比较。它们之间呈现出显著的对数相关趋势,除了个别少数突变偏离此规律。这充分证明AlphaMissense可以有效预测大部分已知突变的功能影响,为理解疾病提供支持。

此外,研究人员还验证了模型在判断实验室的高通量变异数据(MAVE)效能上也是最优秀的,与其他预测方法相比相关度更高。以糖原磷酸激酶为例,AlphaMissense在预测临床实验中观测到的变异效应上远优于其他模型。


这不仅反映了在生物体水平观测到的变异效应,而且显示AlphaMissense模型在单个蛋白质空间三维结构展开的基础上,可以准确捕获蛋白质区域性功能对突变的敏感性,如识别磷酸激酶的催化部位等。

AI牛刀解疑难,验证实验仍需深耕

AlphaMissense模型在准确性、泛化性和覆盖面的综合考量下超越其他已有的蛋白质单点变异效应预测模型。研究人员对全蛋白组所有单残基突变进行了评分,涵盖了超过71亿种变异情况,并标记其中89%为可以高置信度判断的类别。遗传学工作者可以直接利用这一数据库指导实验设计与疾病相关基因的鉴定。


此外,全蛋白组的预测结果也有助于揭示单点突变对蛋白质结构与功能的普适影响规律。这些都为遗传病的防治带来了新的视角。


当然预测模型的准确性还有进一步提高的空间,其中真实的生化实验验证至关重要。另一方面,AlphaFold的局限在于对变异后蛋白质结构改变的不敏感性。未来或许需要在AlphaFold框架内部同时对参考物种序列与变异体序列的结构变化建模。商业化的蛋白质结构实验技术如冷冻电镜技术技术也可以验证这类计算模型,共同完善预测的效能。随着模型的迭代和结合更多的实验验证,蛋白质单点变异效应预测必将飞速推进,极大拓展生物医学研究的广度与深度。


中科微末,作为深耕于结构生物学和AI领域的企业,已充分认识到提供优质结构解析服务的重要意义。中科微末依托自主研发的冷冻电镜技术,专注为生物医药企业提供结构生物学研究服务,实现目标蛋白原子级高分辨率的结构解析。团队成员累积发表400+顶级SCI期刊论文,团队手握多项专利软著,在冷冻电镜技术工作流每个环节累积了大量独家算法和专利,可以提供“高难度结构有解决方案,低难度结构更迅速价格更便宜”的技术服务。展望未来,中科微末将继续致力于冷冻电子显微技术的研发和创新,持续推出更多切合客户需求的结构解析解决方案。

微末生物

Nanomega BioAI

谷歌又放大招,这次要玩转基因变异了吗?

请关注微末生物

期待与您交流

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy