Andrej Karpathy 谈“软件 3.0”：AI 时代的软件

不少人对 Andrej 在 YC AI Startup School 的演讲感到振奋。

第一部分 a：软件 3.0 —— 提示即是程序

此前在《Rise of The AI Engineer》中已有讨论，但这是对《Software 2.0》论文的自然延展，配合“最热门编程语言就是英语”这一观点。

Andrej 当年写《Software 2.0》时，就观察到它在特斯拉吞噬 Software 1.0 的趋势。而现在，他重新定义，迈入 Software 3.0 阶段。

他摒弃仅改良 Software 2.0 图表的做法，绘制了一个新的图表，展现 Software 1.0/2.0/3.0 三者并存且相互补充，指出“软件 3.0 正在吞噬 1.0/2.0”，并预测“大量软件将被重写”。

Andrej 仍将关注点放在“提示即是程序”上。作者与他在 2023 年对此略有分歧：Software 3.0 的“1+2=3”版本，是 AI 工程师近年远超提示工程师表现的关键原因之一。

第一部分 b：大型语言模型（LLM）类比

Andrej 将 LLM 比作：工具、制造代工厂、操作系统，甚至是分时共享主机……

在《Power to the People》一文中，他指出，与传统昂贵的前沿技术相反，LLM 正显现出某种反向流动趋势。

当技术从云端迁往个人/私有 AI，类似“个人计算 2.0”迹象已在 Exolabs 与 Apple MLX 的工作中初显。

第二部分：LLM 心理学

LLM 被描述为“人类精神的随机化模拟”，具备某种渐进“心理”。

Andrej 指出当前 LLM 在模拟人类方面存在两大问题：

崖度智能（Jagged Intelligence）

他提出该术语来描述：虽然顶级 LLM 可完成复杂数学等高难度任务，但在一些显而易见问题上却出现严重失误。例如判断哪一个更大——9.11 还是 9.9 时出错。

此类模型表现参差不齐，很难直觉判断应信赖哪个方面；与人类学习线性增长不同，LLM 的各项能力并不总是同步进步。

他认为这并非根本问题，而是需要全栈改进，其中“认知自知不足”是核心短板，仅通过模仿人类标签和增加规模并不够。可参考 Llama 3.1 在减少幻觉方面的实验。

在应用中应注意这些“崖度”现象，并保持人类审查介入。

前摄性遗忘（Anterograde Amnesia）

LLM 类似患有前摄性遗忘的“同事”，只能依赖短期记忆（上下文窗口），难以形成持久知识或专长。

ChatGPT 的 Memory 功能是对此缺陷的初步补救，但仍需演进，引入类似“系统提示学习”的新范式。

Andrej 认为现有预训练用于知识、微调（SL/RL）用于习惯性行为，而人类更多通过显式记录—类似系统提示—实现学习。他将此类学习称为“system prompt learning”，主张通过编辑（而非梯度下降）生成系统提示，最终逐步将显式策略转化为模型权重。

第三部分：部分自治（Partial Autonomy）

以“钢铁侠战衣”作比喻，该战衣通过两种方式为人类助力：

增强（Augmentation）：赋予力量、工具、传感和信息
自治（Autonomy）：在无需提示时自行执行动作

探讨如何设计 AI 产品，实现这两重增强。

3a：自治滑块（Autonomy Sliders）

他提出自治滑块概念，可调节系统自主程度，例如：

编辑器光标切换: Tab → Cmd+K → Cmd+L → Cmd+I（进入代理模式）
Perplexity 搜索层级: 搜索→研究→深度研究
Tesla Autopilot 自动驾驶级别：从 1 级到 4 级

3b：人机“生成—验证”循环

通过生成与验证的互动回路，实现部分自治。自治循环速度越快，越高效：

提升验证效率：让验证“容易、快速取得正面结果”
强化生成效率：保持 AI 生成过程“收紧缰绳”

3c：演示与产品之间的鸿沟

真正的产品要做到“works all()”，而不仅仅是“works any()”。演示可以实现 One-off，但要覆盖所有场景，还需大量打磨。例如他在 2014 年搭乘 Waymo 原型车时无干预，但离可投运的产品仍有可观差距。

第四部分：Vibe 编程与构建 Agent

那句“launch a thousand startups”的推文，引发一轮创业浪潮，现在已有对应 Wikipedia 页面。

但他发现在构建 MenuGen 等系统时，AI 最初确实加速开发，然而一旦切换到本地环境，AI 的速度优势就消失。说明当前 Web 应用开发仍混乱，由专家工具垄断，不适配 AI agent。

他对 Clerk 文档给予负面评价，对 Vercel 的 @leerob 给出肯定。他还特别提到 Cognition 的 DeepWiki 等“上下文构建工具”。

他强调工具设计者须意识到，已经诞生了“新类型数字信息使用者”：

人类（GUI 使用者）
计算机（API 使用者）
新一类：Agent——虽然是计算机，但以类人方式操作

演讲总结 / 回顾

不要只盯 2027 年 AGI 与炫目演示，而应关注可靠可用的 Partial Autonomy、自定义 GUI 和 Autonomy Sliders
切记：软件 3.0 正在吞噬 1.0/2.0，其类工具/代工厂/操作系统属性将决定未来
强化生成-验证循环，构建供 Agent 使用的系统 🤖

Subscribe 订阅