AI 正在以一种非常奇怪的方式改变科学

AI 正在以一种非常奇怪的方式改变科学，而且这种变化既不是很多人想象中的“机器科学家取代人类”，也不是另一派人口中的“高级自动补全终于开始污染学术界”那么简单。真正发生变化的东西，其实是科学发现内部的一种结构，而且这个结构已经存在了几十年，只不过过去它运行得非常慢、非常昂贵、非常局部化，而今天，大语言模型突然让其中一个环节的成本急剧下降，于是整个系统的行为方式开始出现质变。

Donald Knuth，88 岁，《计算机程序设计艺术》的作者，算法分析领域的奠基人，出了名的 AI 怀疑论者，一个几乎代表“传统计算机科学黄金时代”的人物，居然认真阅读了一份 Claude Code 的对话日志，而且不是随便扫两眼，而是逐行检查，因为里面真的出现了让他感到意外的东西。数学家 Filip Stappers 用 Claude Opus 4.6 做了三十一轮组合数学探索，其中第十五轮里出现了一个此前没人明确写下来的结构模式。Knuth 不但认可这个模式，还亲自完成了证明，最后写成论文，并把它命名为 “Claude’s Cycles”。

很多人在这里会立刻滑向两个极端。

第一种叙事非常熟悉：AI 已经成为科学家，人类只是提示词操作员。模型提出了洞见，人类负责阅读结果，科学发现已经自动化。另一种叙事则完全反过来：语言模型根本不理解数学，它只是概率生成器，真正做科学的是研究者，模型只是一个会拼接 token 的随机鹦鹉。

这两种说法听起来都很完整，但问题在于，它们都在试图回答一个错误的问题：“AI 到底有没有在做科学？”真正值得观察的对象其实不是 AI，也不是人，而是两者之间形成的那个循环。

这个循环的结构非常稳定：人类提出问题，模型生成候选答案，某种验证机制过滤这些答案，然后人类决定哪些结果值得继续推进。这个结构在 Knuth 与 Claude 的案例里存在，在陶哲轩与 Lean 的协作里存在，在 AlphaFold 的蛋白质结构预测里存在，在 DeepMind 的 GNoME 材料发现系统里也同样存在。真正完成“发现”的，从来都不是某个单独主体，而是整个 loop。

这件事非常关键，因为它决定了我们应该如何理解 AI 对科学的影响。很多人习惯性地把科学发现想象成一种高度人格化的行为：某个天才突然洞察宇宙真理。但现代科学早就不是这种模式了。真正的大规模科学活动，本质上是一个由提问、生成、筛选、验证、迭代构成的复杂系统，而 AI 恰好在其中最适合“高吞吐量试错”的那个环节上表现出了惊人的效率。

Claude 的案例其实已经很典型。Stappers 做的不是一次“灵感对话”，而是三十一轮系统性探索。模型不断提出候选结构，人类不断筛选和判断，最终 Knuth 对其中幸存下来的结果完成严格证明。这里最重要的角色不是“科学家”或者“AI”，而是 proposer 和 verifier 的分工。模型负责大量生成可能性，人类与数学系统负责验证。

这个 proposer 的概念非常重要，因为它几乎贯穿了所有 AI 科学案例。

陶哲轩最近几年公开讨论过很多次 Lean 与 LLM 的协作。他描述的流程其实极其清晰：大模型提出证明步骤、引理、问题重构方向，而 Lean 的类型检查器负责验证这些步骤是否合法。Lean 不会“觉得差不多”，不会“语言上似乎合理”，它只有接受或者拒绝。形式系统没有模糊地带。于是整个系统形成了一种很有意思的互补：LLM 非常擅长产生看起来可能成立的结构，但它不可靠；Lean 完全不具备创造力，但它可靠得近乎机械。两者组合之后，科学探索开始出现一种新的节奏。

这里真正变化的，不是“AI 学会了数学”，而是 proposer-verifier loop 的运行成本突然下降了几个数量级。

AlphaFold 也是一样。很多媒体喜欢说“AI 解决了蛋白质折叠问题”，但如果仔细看整个流程，你会发现事情根本不是“AI 独立完成科学发现”。AlphaFold 的角色依旧是 proposer：它提出结构候选；真正完成验证的是 X 射线晶体学、冷冻电镜、实验生物学。这些验证机制不是语言模型，它们是物理世界本身。蛋白质到底是不是那样折叠，不由模型决定，而由实验决定。

GNoME 与 A-Lab 的案例甚至更极端。DeepMind 的模型生成了三十八万个候选晶体结构，而 Berkeley 的自动化实验室真的拿这些结构去合成材料。机器人控制真实化学反应、真实高温炉、真实衍射设备，然后检查晶体是否形成。这里的 verifier 已经不是软件，而是自然规律本身。晶体不会因为语言流畅而形成。

如果把这些案例放在一起观察，会发现一个非常稳定的模式：

模型负责提出候选；
独立验证系统负责过滤；
人类负责决定什么值得继续。

这个结构其实比很多人想象得古老得多。

1976 年 Appel 与 Haken 使用计算机证明四色定理时，整个数学界已经经历过一次类似震荡。因为那次证明包含 1482 个需要计算机穷举验证的情况，没有人类能手工检查全部过程。数学家第一次面对一种不再完全可阅读的证明体系。问题是人类提出的，归约过程是人类设计的，而真正完成大规模验证的是机器。

同样的结构后来出现在 Hales 对 Kepler 球堆积猜想的证明中。那份证明复杂到审稿人只能说“99% 相信它正确”。随后 Flyspeck 项目又花了十六年时间，用 HOL Light 完成形式化验证。十六年。这个时间尺度本身就说明一个问题：科学 loop 从来都存在，只是过去 verifier 极其缓慢。

甚至 2020 年的 AI Feynman 也已经体现了类似结构。系统通过符号回归从数据中恢复物理方程，本质上也是 proposer 不断生成数学表达式，再由数学规则进行筛选。

所以 2022 年之后真正变化的东西，其实只有一个：proposer 被通用大模型替换了。

过去每个 proposer 都是专门工程。AlphaFold 是为蛋白质设计的，AI Feynman 是为物理方程设计的，Flyspeck 是为特定数学问题设计的。而现在，一个通用 LLM 可以同时参与组合数学、材料科学、程序搜索、蛋白质结构、形式证明。它未必在任何单一领域都达到专家水平，但它已经足够好，好到 verifier 可以从海量输出里筛出真正有价值的结果。

这个变化看似只是“工具升级”，但实际上它改变了整个科学探索的吞吐量。

因为 proposer 这个角色本来就是整个 loop 中最适合容忍错误的部分。它不需要绝对正确，只需要不断生成“值得验证”的候选即可。真正必须可靠的是 verifier。

这一点在 Galactica 的失败里体现得尤其明显。

Meta 当年发布 Galactica 时，宣传口径几乎是“科学大模型即将改变研究方式”。它读过海量论文，可以生成学术内容、解释概念、提出假设，看起来极其流畅。但它上线三天就被撤回，因为它开始大量生成伪造引用、错误化学结构和虚假事实。

很多人从这里得出的结论是“LLM 不适合科学”。

但更准确的说法其实是：Galactica 缺少 verifier。

它把 proposer 的输出直接暴露给用户，而用户又错误地把 proposer 当成 verifier 使用。整个 loop 没有闭合，于是系统开始稳定地产生“自信的胡说八道”。

这也是为什么 verifier 才是真正重要的部分。

一个弱 proposer 加强 verifier，仍然可以得到可靠科学，只是效率低一点。这其实就是传统科学几百年来的工作模式。相反，一个强 proposer 配弱 verifier，结果一定是灾难。因为 proposer 的任务本来就不是保证正确，它只是负责探索搜索空间。

陶哲轩其实已经非常清楚地意识到了这一点。他对 Lean + LLM 的评价，本质上是在强调两种系统的互补性：LLM 负责创造性，形式系统负责可靠性。单独使用任何一方都不够，但组合之后，整个 loop 的能力突然变得异常强大。

这里最有意思的变化还不只是“生成速度更快”。

更深层的变化是 proposer 开始能够生成 proposer。

像 FunSearch、AlphaEvolve 这样的系统，已经不只是生成候选解，而是在生成搜索策略本身。也就是说，大模型不仅参与问题求解，还开始参与“如何搜索”的设计。这意味着搜索空间本身开始自动演化。

当然，这并不意味着 AI 已经拥有科学主体性。

因为 proposer 并不负责提出问题。

问题依然来自人类。Knuth 决定哪些数学结构重要，陶哲轩决定哪些引理值得推进，材料科学家决定哪些晶体结构有意义。模型不会“关心”某个问题值不值得研究，也不会承担错误发现带来的责任。

所以把 AI 当成“锤子”是不准确的，但把它当成“独立科学家”同样不准确。

更接近现实的描述其实是：AI 正在成为一种新型实验室成员。

它不是 PI，不是作者意义上的主体，但它也不是普通工具。它会提出让专家感到意外的结构，会探索人类来不及穷举的组合空间，会在复杂搜索问题里发现此前没人注意到的路径。它已经不是传统意义上的“执行器”。

而这件事接下来会对整个科学制度产生非常复杂的影响。

因为科学机构真正衡量的东西，从来不是“发现”本身，而是论文。

问题在于，论文数量与真正科学突破之间，其实早就脱钩了。

Nature 2023 年一项研究已经指出，自 1945 年以来，真正具有“颠覆性”的研究比例一直在下降，而论文数量却持续爆炸。大量论文只是微小增量、重复验证、方法迁移。AI proposer 的出现，只会进一步放大这种趋势。

因为生成候选结果的成本突然降低了。

如果一个模型一天能生成上千个“看起来像论文”的候选结果，而 peer review 本身又是一个极其脆弱、缓慢、可操纵的 verifier，那么整个学术系统会立刻面临前所未有的噪声洪水。

所以 AI 对科学最大的挑战，其实不是 proposer，而是 verifier。

今天几乎所有资本都在疯狂投入 proposer：更大的模型、更低的推理成本、更快的生成速度。但 verifier 的建设严重滞后。形式化验证工具依然难用，实验复现缺乏激励，自动化实验室成本高昂，学术审稿系统仍然停留在“论文生成很昂贵”的旧时代。

可未来真正稀缺的人，恰恰是那些能够设计 verifier 的研究者。

因为当 proposer 极度廉价之后，真正有价值的能力会向上游转移：提出正确问题，以及构建可靠验证机制。

未来最重要的科学家，很可能不是“最会写论文的人”，而是那些能够定义“什么叫正确答案”的人。

所以如果今天看到某个“AI 科学突破”，其实只需要问一个问题：

它的 verifier 是什么？是谁构建的？

如果 verifier 是 Lean、实验物理、晶体衍射、严格复现实验，那么结果值得认真看待。因为 proposer 是否可靠已经不再重要，垃圾会被 verifier 清除。

但如果 verifier 也是 GPT-4，本质上只是“让另一个模型判断第一个模型是否合理”，那其实仍然是 Galactica，只不过包装得更复杂一点。

真正决定科学质量的，从来不是 proposer，而是 verifier。AI 改变的不是这个事实，而是它第一次把 proposer 的能力推到了一个极端，以至于整个科学体系不得不重新意识到：验证，才是整个 loop 里真正昂贵、真正关键、真正不可替代的部分。

Subscribe 订阅