没有任何专家能够逃脱“专业能力对数式增长”的曲线。无论是星舰企业号的工程官乔迪·拉福吉少校(前景),还是莉亚·布拉姆斯博士(中景),当然也包括舰载计算机本身(背景)。图片来源:screenrant,wikipedia
(本文最初是在 LinkedIn 风格的平台上随手写成的,下面版本略作修订,以便更好地“掌控所有权”和保持理智。)
一切专业能力都是对数增长的,而不是指数增长
星舰企业号的工程官——乔迪·拉福吉少校——几乎就是“使用生成式 AI 的工程师与高管”的原型人物。他时时刻刻都在使用那台由反物质驱动的舰载 LLM,甚至经常在生死攸关的时刻,用它来解决全新、一次性的复杂问题。
但他之所以能如此成功地使用这些系统,并不是因为 LLM 本身多么强大,而是因为他能够识别极其细微的错误,并用自己顶级的训练背景和多年一线实战经验进行补偿与增强。
换句话说,他拥有通过长期磨炼获得的高度专业化的隐性知识(tacit knowledge),而这种知识是任何静态数据语料库——无论多么庞大、详尽——都不可能具备的。品味、判断力和直觉不是天生的,而是后天培养出来的:通过系统训练、刻意练习,以及与现实世界的频繁、剧烈碰撞。是的,是频繁而暴力的现实碰撞。
然而,不论是人类还是计算机,其专业能力的增长都遵循对数曲线:最初进步飞快,持续一小段时间;随后进步放缓但仍可感知;最终,增长几乎变得不可察觉——再多的投入,也难以带来有意义的产出。
换句话说:
专家系统,需要专家用户。
我将这一现象称为:乔迪·拉福吉悖论(The Geordi LaForge Paradox)。
语言模型越大、越复杂,用户自身的世界模型就必须越成熟。只有受过严格训练的放射科医生,才有能力去审视计算机模型给出的影像分类结果。也只有乔迪,才能同时挑战舰载计算机与布拉姆斯博士那种高度专业、深度信息化的判断——因为只有他,是通过唯一可行的方式学会那些真正困难的东西的:那条漫长而艰辛的道路。
而这一科学事实,具有深远的影响。
关于“2030 年及以后”的故事,其实正在当下发生
只是,人们并没有在正确的地方寻找那串“丢失的钥匙”。他们只盯着那根炽热的路灯柱——也就是由核电驱动的、抽象化的大型 LLM 机器。像飞蛾扑火一样,被自己制造出来的引力井所困:既包括情绪与心理注意力上的沉没成本,也包括现实世界中的实际投入。
我对 LLM 技术的乐观判断是:
到大约 2030 年左右,我们将从 Transformer 架构、规模化与压缩中,获得一些并非微不足道的直接收益,例如:
- 一大批商品化的、超专业的模式匹配专家系统(天文影像、放射影像、计算机视觉、多媒体制作工具等);
- 以及一些通用的、商品化的语言翻译引擎(真正意义上的“巴别鱼”,比如 Azmat Yusuf 的 Talk Machine 之类)。
然而,真正巨大的收益将来自间接效应:当 GPU 投资开始“变形”为服务于当今严重被忽视、却足以重塑世界的科学与工业应用领域时。
可以想象这样一个场景:
“校园级 GPU 超级计算机,便宜到几乎可以忽略计量成本。”
巨量 GPU 基础设施 → 工业应用的嬗变
我真诚地希望,我们能看到类似历史上铁路、电信或云计算繁荣之后发生的那种局面:
巨额资本投入,通过资产减记、贱卖、破产式并购等方式,重新分配基础设施所有权,从而催生完全出乎意料的工业、经济乃至社会政治现象。
或许(我希望如此),我们会看到数据中心的去中介化:整柜整柜的计算设备被运往私营企业、大学等地方——后院里堆着超级计算机。
一个全新的“Oxide Computer Company”式企业生态,随之诞生。
突破性科学与工业工程,需要“周期时间”的压缩
如果真的进入一个“GPU 便宜到不计成本”的阶段——假设持续十年,直到 2040 年左右——那么传统确定性建模与仿真类工作负载的迭代周期,可能会被极大地压缩。
比如:
- 全基因组测序在数秒内完成;
- 高保真扫描与成像(想象一下由超级计算机驱动的 MRI);
- “n=1”的精准医学突破——将专家主导的鉴别诊断过程,从数年数月压缩到数天甚至数小时;
- 疫情中的疫苗响应速度大幅提升(也许不再需要庞大的受试人群与漫长时间来获得统计显著性);
- 整个火箭系统在计算机中完成设计、仿真与测试(不再主要通过“非计划中的中途解体”来发现极限);
- 小鼠,甚至线虫级别的全脑(也许全身)模拟;
- 多物理场与材料科学创新(是否有 LLM 辅助并不重要);
- 等等、等等。
凡是今天“计算成本高得离谱”的事情,都可能被彻底重塑。
那么,我们这些年到底在建什么?
整个社会一直在构建高度并行的计算硬件——GPU 与内存逐渐成为商品化单元,主要是由消费级应用驱动的,而不是重工业或国防需求。
路径大致是:
- 首先服务于游戏与视频流媒体;
- → 推动经典机器学习与 AI;
- → 与之一起推动分布式账本;
- → 如今被重新征用,用于“规模化 AI”。
但问题在于:规模化 AI 正以比加密挖矿更快的速度,撞上同样的能源与物理极限,而且资本支出与运营成本高出几个数量级。
IBM CEO Arvind Krishna 在 Decoder 播客中与 Nilay Patel 的一段对话,把这一点说得非常直白(重点为作者强调):
“我们回到当下的成本来讨论,因为未来的东西都只是猜测。
填满一个 1 吉瓦的数据中心,大约需要 800 亿美元。这是今天的数字。
如果一家公司要承诺 20–30 吉瓦,那就是 1.5 万亿美元的资本支出。而且五年内必须把它用完,否则就得推倒重来。
现在全世界在追逐 AGI 的承诺,大约是 100 吉瓦规模,那就是 8 万亿美元的资本支出。
我认为这是不可能获得回报的。因为 8 万亿美元的资本支出,意味着你至少需要 8000 亿美元的利润,才能支付利息。”
LLM 的狂热爱好者或许会认为 IBM 只是因为“错过风口而心怀不满”。但 IBM 存在的时间,比几乎任何公司都长,长到足以明白什么叫高度杠杆化的资本支出。
除非出现比太阳能还便宜的聚变能源,或者金融工程的奇迹——也许真有债务重组的魔法师,也许量化宽松能让非理性持续得比我还能保持清醒更久——否则,草算账终究会收敛为:
一个后 LLM 基础设施过度投资的、计算能力严重过剩的经济体。
那么,真正的问题是:
谁,正在为以“白菜价”接盘并重新利用那些被蒸发掉的数据中心投资,提前布局选择权?