执行摘要
2017 年,刚完成理论化学博士学位的约翰·贾姆珀(John Jumper)听说谷歌 DeepMind 正从超人级游戏 AI 转向一个秘密项目——预测蛋白质结构。他立即申请加入。
三年后,他与 CEO 戴密斯·哈萨比斯(Demis Hassabis)共同领导的团队推出了 AlphaFold 2,一种能够在原子级精度范围内预测蛋白质三维结构的 AI 系统。它不仅达到了实验室技术的准确度,还将实验时间从数月缩短到数小时。
AlphaFold 2 破解了一个生物学界困扰五十年的难题。哈萨比斯曾表示:“这正是我创立 DeepMind 的初衷,也是我毕生投身 AI 的原因。”2024 年,贾姆珀与哈萨比斯因这项突破性成就共同获得诺贝尔化学奖。
五年前 AlphaFold 2 横空出世,如今热潮渐息,它的真正影响如何?科学家们如何使用它?未来又将走向何方?贾姆珀在访谈中给出了答案。
“这是令人难以置信的五年”
贾姆珀笑言:“我几乎忘了在认识成千上万记者之前的生活是什么样。”
自 AlphaFold 2 之后,团队先后推出了可预测多蛋白结构的 AlphaFold Multimer 以及更快速的 AlphaFold 3。DeepMind 还将其用于 UniProt——一个全球数百万科学家维护的蛋白质数据库。目前,AlphaFold 已预测了约 2 亿个蛋白质 的结构,几乎覆盖已知的全部生物蛋白。
尽管如此,贾姆珀依然保持谨慎:“我们并不确定所有预测都是对的。那是一个预测数据库——它附带所有预测的限制条件。”
一个极难的问题
蛋白质是生命的“机器”:它们构成肌肉、羽毛和角,运送氧气,传递信号,驱动神经活动、免疫反应和消化过程。理解蛋白质的功能首先要弄清它的结构,而这是生物学中最棘手的难题之一。
蛋白质由氨基酸链组成,这些链在化学力作用下折叠成复杂的三维形状。一个未折叠的序列几乎无法透露最终结构,而理论上每个蛋白质都可能有天文数量的构象。预测其正确形状,堪称计算地狱。
贾姆珀和团队采用了基于 Transformer 架构 的神经网络——这也是如今大型语言模型(LLM)的基础技术。Transformer 善于在庞大信息中捕捉关键关联。
然而,他认为真正的成功在于快速迭代的实验原型:“我们做出了一个能以惊人速度给出错误答案的系统,这反而让我们能大胆尝试各种想法。”
他们向模型输入了尽可能多的蛋白质结构信息,包括跨物种形态的演化模式。结果超出了预期——“我们立刻意识到自己取得了突破,”贾姆珀说,“这是一次理念上的巨大飞跃。”
意想不到的应用
AlphaFold 推出后,研究者立刻将其用于各种研究场景。贾姆珀表示:“我非常惊讶科学界对它的使用如此理性——既不过度依赖,也不过度怀疑。”
例如,有研究团队使用 AlphaFold 研究 蜜蜂抗病性,希望了解某种蛋白质在蜂群崩溃症中的作用。“谁能想到 AlphaFold 会用在蜂类科学上?”他笑道。
另一些“越界应用”更令人惊叹。
- 蛋白质设计:华盛顿大学的大卫·贝克(David Baker)利用 AlphaFold 辅助设计人工蛋白,创造出能降解塑料或治疗疾病的新分子。这项研究也让贝克与贾姆珀、哈萨比斯一同获得诺贝尔奖。
贾姆珀说:“设计者只需让 AlphaFold 检查:若模型高置信度同意结构设计,就制造它;若不确定,就放弃。这让设计过程快了十倍。” - 作为结构搜索引擎:研究人员利用 AlphaFold 探索精子与卵子的结合机制。他们输入已知的卵子蛋白结构,让模型与 2000 个精子表面蛋白逐一比对,最终找到唯一高度匹配者,并在实验中得到验证。
“没人会真的尝试 2000 次结构比对去找一个答案,”贾姆珀说,“但现在可以。AlphaFold 让这种探索成为可能。”
五年后的反思
五年前采访时,科学家们还不确定它的长远影响。如今,加州大学旧金山分校分子生物学家克里门特·维尔巴(Kliment Verba)表示:“它是极其有用的工具,我们几乎每天都在用。”
但他也指出局限性:AlphaFold 对单蛋白预测精准,但多蛋白复合体或蛋白与小分子相互作用的预测仍不可靠。“有时模型结果让人挠头——真假难辨,”维尔巴说,“它有点像 ChatGPT——用相同的自信讲真话或胡说。”
尽管如此,AlphaFold 仍极大加速了实验流程。研究团队可以先用虚拟预测缩小实验范围,再决定是否值得进行。“它并未取代实验,但让实验更高效。”
新一波 AI 生物学浪潮
如今,多家初创公司与大学实验室正基于 AlphaFold 开发专注药物研发的新一代模型。
- MIT 与 Recursion 合作开发的 Boltz-2:不仅预测蛋白质结构,还能评估潜在药物分子的结合效果。
- Genesis Molecular AI 推出的 Pearl 模型:在特定药物开发场景下比 AlphaFold 3 更精准,并允许研究者动态输入数据以指导预测。
Genesis CEO Evan Feinberg 表示:“我们仍在持续创新,只不过起点比过去更高。” 他们正在将预测误差从 AlphaFold 的两埃(2 Å)缩小至 一埃(1 Å),约等于一个氢原子的直径。
建模副总裁迈克尔·莱文(Michael LeVine)指出:“误差的微小差异可能导致药物结合预测从‘永不结合’变为‘成功结合’。”
科学之路的下一步
贾姆珀保持清醒:“预测蛋白质结构只是生物学的一个环节——我们离治愈疾病还差得远。”
他笑言:“如果只差十万美元的实验费,早就有人做了。”
但他也补充:“我们正努力让结构预测在科研流程中承担更大的角色,因为我们现在手里有一把非常好用的大锤。”
当被问是否想把所有问题都变成“钉子”时,他笑道:“对,正是如此。我们要思考如何让这个百万倍提速的工具,覆盖更多问题。”
融合 AlphaFold 与 LLM 的未来
贾姆珀的下一个目标,是让 AlphaFold 与大型语言模型协同工作。
“我们现在有能阅读科学论文、进行科学推理的机器,也有能以超人水平预测蛋白结构的系统——接下来要思考的是,如何让两者协同。”
这让人联想到 DeepMind 正在研发的 AlphaEvolve 系统:由一个 LLM 生成假设,另一个模型验证并筛选。它已在数学和计算机科学中发现了若干新规律。
贾姆珀对此仅表示:“我不会透露太多细节,但如果未来 LLM 不在科学领域产生更大影响,我会非常震惊。这是令人兴奋、但仍开放的问题。”
诺奖之后
39 岁的贾姆珀成为近 75 年来最年轻的化学奖得主。他说:“这其实挺让人担忧的,我大概才走到职业生涯的中点。”
他最后补充:“接下来我想做一些更小的事——那些从小点子出发、越拉越长的线索。下一次的成果不必是再一次诺贝尔奖——那是一个陷阱。”
结语
AlphaFold 打开了生物学的新篇章,也揭示了人工智能在科学发现中的潜能。
正如贾姆珀所言:“AI 不仅在加速科学,更在重新定义科学可能的边界。”