一款全新的统一 DNA 序列模型 AlphaGenome 正式推出,该模型在调控性变异效应预测方面取得重要突破,并有望揭示基因组功能的新层面。AlphaGenome 现已通过 API 提供预览访问,用于非商业研究用途。
基因组被视为细胞的说明书,包含生命体的全部 DNA 信息,决定了其外貌、功能、成长和繁殖。即便是极微小的 DNA 序列变异,也可能改变机体对环境的反应,或增加其患病风险。然而,要解码基因组在分子层面上的“阅读”方式,以及理解当 DNA 出现微小变化时所产生的后果,至今仍是生物学面临的一大难题。
为推动科学研究,AlphaGenome 提供了更全面、精准的预测能力,帮助科学家理解人类 DNA 中的单一变异如何影响多个基因调控过程。这项突破得益于一系列技术进展,使模型得以处理长达一百万碱基对的 DNA 序列,并提供高分辨率预测。
AlphaGenome 可通过 API 免费用于非商业性研究,未来也计划向更广泛的用户群体开放。
AlphaGenome 的工作原理是:以长达一百万个碱基的 DNA 序列作为输入,预测与基因调控相关的数千种分子特征,并通过对比变异序列与原始序列的预测结果,评估特定基因变异的影响。预测内容包括不同细胞类型与组织中的基因起始与终止位置、RNA 产量、RNA 剪接位置及其频率,以及 DNA 的可及性、空间接近性及与特定蛋白质的结合情况。
模型的训练数据来自多个大型公共项目,如 ENCODE、GTEx、4D Nucleome 与 FANTOM5,这些项目提供了对数百种人类与小鼠细胞类型和组织中基因调控模式的实验性测量数据。
AlphaGenome 的架构结合了卷积层(用于识别短序列模式)、Transformer(用于跨序列位置的信息传递)和用于多种预测任务的输出层。训练过程中,模型运算分布在多个互联的张量处理单元(TPU)上,以加快效率。
该模型基于早期的 Enformer 模型,并与 AlphaMissense 模型互补,后者专注于蛋白质编码区域变异的分类,占据整个基因组的2%。AlphaGenome 则针对剩余的98%非编码区域提供新的解读方式,这些区域在调控基因活性中发挥关键作用,且常包含与疾病相关的变异。
AlphaGenome 的亮点包括:
- 长序列上下文与高分辨率预测:可处理长达100万碱基的序列,预测精度可达单个碱基水平,兼顾长距离调控信息和生物细节。
- 多模态综合预测能力:可预测多种与基因调控相关的分子属性,是现有 DNA 模型中预测能力最广的一种。
- 高效的变异效应打分:能够快速评估基因变异对多种分子属性的影响。
- 创新的 RNA 剪接建模:首次实现从序列中直接预测剪接位点及其表达水平,有望揭示罕见疾病的机制。
- 在基准评估中表现领先:在24项 DNA 序列与变异预测任务中,AlphaGenome 在22项中优于外部最佳模型;在26项变异效应预测任务中,有24项与顶级模型持平或更优。
通过单一 API 调用,科学家即可同时评估变异对多个基因调控过程的影响,无需借助多个模型,极大加快假设生成与验证的速度。模型的高性能也表明其已学习到基因调控相关的通用 DNA 表征,为未来扩展至其他物种、新的调控模式或更广泛应用奠定基础。
AlphaGenome 在以下研究方向具有广阔应用前景:
- 疾病研究:精准预测变异对调控系统的干扰,有助于揭示疾病根源并发现潜在治疗靶点,尤其适合研究具有显著效应的罕见变异。
- 合成生物学:可用于指导具有特定调控功能的合成 DNA 设计,例如只在神经细胞中激活某基因而不在肌肉细胞中表达。
- 基础研究:有助于绘制关键功能元件图谱,解析基因调控的基本机制。
例如,在 T 细胞急性淋巴细胞白血病(T-ALL)患者的研究中,科学家利用 AlphaGenome 成功预测了特定非编码变异会通过引入 MYB DNA 结合位点激活 TAL1 基因,从而复现了已知的疾病机制,验证了该模型在疾病机制研究中的实用性。
尽管 AlphaGenome 已取得重要进展,但仍存在一定局限。例如,对距离较远的调控元件(如相距10万碱基以上)的建模仍面临挑战;此外,如何更准确地识别组织与细胞类型特异性的模式,也是后续改进的重点方向。
AlphaGenome 并非为个体化基因预测而设计,也未用于临床诊断,而是专注于变异效应的研究用途。尽管模型可预测分子层面的后果,但仍无法完全解释复杂性状或疾病的发生机制,这些通常涉及更广泛的生物过程,如发育阶段和环境因素。
AlphaGenome 现已通过 API 提供给全球研究人员用于非商业用途,模型预测结果仅用于科研,不适用于临床实践。研究人员可通过社区平台提交应用案例或反馈意见。
AlphaGenome 有望成为推动基因组学与医疗研究的强大工具,未来也将继续在全球科学界的共同努力下,深化人类对 DNA 序列及其变异影响的理解,助力实现更多前沿突破。