AI蛋白质结构预测工具AlphaFold3现已开源。11月11日,伦敦的谷歌DeepMind公司宣布,这款诺贝尔奖获奖模型的代码现可供学术界下载用于非商业用途。这一决定是在DeepMind因未公开代码而备受批评后做出的,许多科学家认为这阻碍了科学复现。DeepMind团队在6个月后最终兑现承诺,将AlphaFold3的代码向学术界开放。
AlphaFold3与之前版本的不同之处在于,它不仅能预测单个蛋白质的结构,还可以模拟蛋白质与其他分子(例如DNA)的相互作用。然而,在此前仅提供的网络服务器版本中,科学家无法通过AlphaFold3预测蛋白质在潜在药物中的行为。现在,研究人员可以通过自己运行模型来实现这些交互预测,大大推动了药物研发。
当初,DeepMind只通过网络服务器提供AlphaFold3,意在平衡研究开放性与商业利益保护。其衍生公司Isomorphic Labs专注于将AlphaFold3用于药物发现。然而,限制访问模型代码和权重的决定引发了科学界的不满。如今,尽管代码已经开源,但权重文件仅向学术科研人员开放,且需单独申请。
值得注意的是,DeepMind并不是唯一一家发布蛋白质结构预测工具的公司。过去几个月,百度、字节跳动以及加州旧金山的初创公司Chai Discovery等公司也相继发布了基于AlphaFold3原理的预测模型。尽管这些模型不允许用于商业应用,但Chai Discovery的模型Chai-1可以通过网络服务器提供预测服务。同时,旧金山的Ligo Biosciences推出了不受限制的AlphaFold3版本,但功能尚不完整,尚不支持对药物等非蛋白质分子进行模拟。
计算生物学家AlQuraishi表示,他的团队也在开发完全开源的版本OpenFold3,预计年内发布,这将为药企提供自由调整模型、并用专有数据进行再训练的可能性。
对开放性的关注也反映了生物AI模型发布方式的多样化趋势。威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter指出,科研公司若在期刊和预印本中分享成果,应确保信息的透明性,否则难以获得学术界的信任。
实际上,AlphaFold3的高复现性使得多个团队在不依赖源代码的情况下已实现类似模型。DeepMind科学AI负责人Pushmeet Kohli指出,这一现象显示了模型本身的可复现性,但他也期待学术界和企业研究人员间关于出版规范的更深入讨论。
AlphaFold2的开源推动了大量创新,最近一场蛋白质设计竞赛中,获胜团队便利用其设计出了一种能结合癌症靶点的新蛋白质。AlphaFold3开源后,项目负责人Jumper表示期待更多意外的创新,尽管其中不乏失败的可能。他认为这种多样化的探索方式能带来更丰富的科研成果。