2025:大语言模型之年
这是我年度系列回顾过去 12 个月里 LLM 领域发生的一切
这一年充满了许多不同的趋势 :
- “推理”之年
- 智能体(Agents)之年
- 编程智能体与 Claude Code 之年
- 命令行 LLM 之年
- YOLO 与“偏差正常化”之年
- 每月 200 美元订阅之年
- 排名顶尖的中国开源权重模型之年
- 长任务之年
- 提示词驱动图像编辑之年
- 模型在学术竞赛中赢得金牌之年
- Llama 迷失方向之年
- OpenAI 失去领先地位之年
- Gemini 之年
- 鹈鹕骑自行车之年
- 告密者(The Snitch)之年!
- 氛围编程(Vibe Coding)之年
- (唯一的?)MCP 之年
- AI 能力惊人的浏览器之年
- 致命三连击(The Lethal Trifecta)之年
- 在手机上编程之年
- 一致性测试套件之年
- 本地模型变强,但云端模型变得更强之年
- 垃圾内容(Slop)之年
- 数据中心变得极其不受欢迎之年
- 我自己的年度词汇
这就是 2025 年的总结 。
“推理”之年
OpenAI 在 2024 年 9 月通过 o1 和 o1-mini 开启了“推理”——即推理缩放(inference-scaling)或称“来自可验证奖励的强化学习”(RLVR)革命 。他们在 2025 年初通过 o3、o3-mini 和 o4-mini 加倍投入,此后“推理”已成为几乎所有其他主要 AI 实验室模型的标志性功能 。+1
关于这一技巧重要性,我最喜欢的解释来自 Andrej Karpathy :
通过在许多环境(例如数学/代码谜题)中针对自动可验证的奖励训练 LLM,LLM 会自发地产生在人类看来像是“推理”的策略——它们学会将问题解决分解为中间计算,并学会了许多用于来回思考以弄清楚问题的策略(参见 DeepSeek R1 论文中的示例) 。
运行 RLVR 被证明提供了极高的性价比(能力/$),这吞噬了原本打算用于预训练的算力 。因此,2025 年大部分的能力进展是由 LLM 实验室消化这一新阶段的“红利”所定义的。总体上,我们看到了模型规模相似但 RL 运行时间长得多的 LLM 。+1
2025 年,每个知名的 AI 实验室都至少发布了一个推理模型 。一些实验室发布了可以在推理或非推理模式下运行的混合模型 。许多 API 模型现在都包含拨盘,用于增加或减少应用于给定提示词的推理量 。+1
我花了一段时间才理解推理有什么用 。最初的演示展示了它解决数学逻辑谜题和数出“strawberry”中有多少个 R——这两件事我在日常模型使用中并不需要 。+1
事实证明,推理的真正开启点在于驱动工具 。拥有工具访问权限的推理模型可以规划多步骤任务,执行任务,并继续对结果进行推理,从而更新计划以更好地实现目标 。+1
一个显著的结果是 AI 辅助搜索现在真的好用了 。以前将搜索引擎连接到 LLM 的结果值得怀疑,但现在我发现即使是我更复杂的研究问题,通常也能通过 ChatGPT 中的 GPT-5 Thinking 得到解答 。+1
推理模型在编写和调试代码方面也非常出色 。推理技巧意味着它们可以从错误开始,逐步检查代码库的许多不同层级以找到根本原因 。我发现即使是最棘手的 Bug,也可以通过一个具有阅读和执行代码能力的优秀推理模型,在大型且复杂的代码库中诊断出来 。+2
将推理与工具使用相结合,你就得到了……
智能体之年
我在年初做了一个预测:智能体(Agents)不会发生 。整个 2024 年大家都在谈论智能体,但几乎没有它们能够工作的例子,更令人困惑的是,每个使用“智能体”这个词的人似乎都在使用略有不同的定义 。+1
到了 9 月,由于缺乏清晰的定义,我对自己一直避免使用这个词感到厌烦,于是决定将它们视为:一个为了实现目标而在循环中运行工具的 LLM 。这消除了我进行相关生产性对话的障碍,这始终是我对这类术语的目标 。+1
我当时认为智能体不会发生,是因为我不认为易受骗问题(gullibility problem)能被解决,而且我认为用 LLM 取代人类员工的想法仍然是可笑的科幻小说 。我的预测对了一半:科幻版的那种能做你要求的任何事情的神奇电脑助手(如电影《Her》中那样)并没有出现 ……+1
但如果你将智能体定义为能够通过多次步骤调用工具来执行有用工作的 LLM 系统,那么智能体已经到来了,并且它们正被证明是非常有用的 。
智能体的两个突出品类是编程和搜索 。
“深度研究”(Deep Research)模式——即你要求 LLM 收集信息,它埋头苦干 15 分钟以上为你生成一份详细报告——在今年上半年很流行,但现在已经过时了,因为 GPT-5 Thinking(以及谷歌的“AI 模式”,一个比他们糟糕的“AI 概览”好得多的产品)可以在极短的时间内产生相当的结果 。我认为这是一种智能体模式,而且运行得非常好 。+1
“编程智能体”模式则是一件大得多的事情 。
编程智能体与 Claude Code 之年
2025 年最具影响力的事件发生在 2 月,当时 Claude Code 低调发布 。我说它低调,是因为它甚至没有自己的博客文章 !Anthropic 将 Claude Code 的发布作为他们宣布 Claude 3.7 Sonnet 文章中的第二个项目捆绑在一起 。+2
(为什么 Anthropic 从 Claude 3.5 Sonnet 直接跳到了 3.7?因为他们在 2024 年 10 月发布了 Claude 3.5 的重大更新但保持名称不变,导致开发者社区开始称未命名的 3.5 Sonnet v2 为 3.6 。Anthropic 因为没能正确命名新模型而白白烧掉了一个版本号 !)
Claude Code 是我所称的编程智能体最突出的例子——这种 LLM 系统可以编写代码、执行代码、检查结果,然后进一步迭代 。
各大实验室都在 2025 年推出了自己的 CLI 编程智能体 :
- Claude Code
- Codex CLI
- Gemini CLI
- Qwen Code
- Mistral Vibe
独立于供应商的选择包括 GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI 和 Pi 。Zed、VS Code 和 Cursor 等 IDE 也在编程智能体集成方面投入了大量精力 。+1
我第一次接触编程智能体模式是 2023 年初 OpenAI 的 ChatGPT Code Interpreter——一个内置于 ChatGPT 的系统,允许它在 Kubernetes 沙箱中运行 Python 代码 。
今年 9 月,当 Anthropic 终于发布了他们的同类产品时,我非常高兴,尽管最初的名字非常令人费解,叫作“使用 Claude 创建和编辑文件” 。10 月,他们重新利用了那个容器沙箱基础设施,推出了 Claude Code 网页版,从那时起我几乎每天都在使用它 。+1
Claude Code 网页版是我所说的异步编程智能体——一个你可以发出提示词后就忘掉的系统,它会处理问题并在完成后提交一个 Pull Request 。OpenAI 的 “Codex cloud”(上周更名为 “Codex web”)于 2025 年 5 月推出 。Gemini 在这一类别的参赛选手名为 Jules,同样在 5 月发布 。+1
我喜欢异步编程智能体这一品类 。它们是解决在个人笔记本电脑上运行任意代码执行所带来的安全挑战的绝佳方案,而且能够同时启动多个任务——通常是从我的手机上——并在几分钟后获得不错的结果,这真的很有趣 。+1
命令行 LLM 之年
在 2024 年,我花了很多时间折腾我的 llm 命令行工具,以便从终端访问 LLM 。当时我一直觉得奇怪,为什么这么少的人认真对待模型的 CLI 访问——它们感觉与 Unix 的管道等机制非常契合 。
也许终端对于 LLM 的访问来说太奇怪、太小众了,永远无法成为主流工具 ?
Claude Code 及其同类工具已经有力地证明了,只要模型足够强大且有合适的框架,开发者就会拥抱命令行上的 LLM 。此外,当 LLM 可以为你吐出正确的命令时,像 sed、ffmpeg 甚至 bash 本身这些语法晦涩的终端命令就不再是门槛了 。+1
截至 12 月 2 日,Anthropic 称 Claude Code 的年化收入已达 10 亿美元 !我压根没预料到一个 CLI 工具能达到接近这个数字的水平 。事后看来,也许我应该把 llm 从一个业余项目提升为核心重点 !+2
YOLO 与“偏差正常化”之年
大多数编程智能体的默认设置是:对它们采取的几乎每一个动作都请求用户确认 。在一个智能体错误可能会抹除你的主文件夹,或恶意提示词注入攻击可能窃取你的凭据的世界里,这种默认设置完全合理 。+1
任何尝试过以自动确认运行智能体(又名 YOLO 模式——Codex CLI 甚至将 --dangerously-bypass-approvals-and-sandbox 设为 --yolo 的别名)的人都经历过这种权衡:使用没有“安全轮”的智能体感觉就像是一个完全不同的产品 。
像 Claude Code 网页版和 Codex Cloud 这样的异步编程智能体的一个大优势是,它们可以默认以 YOLO 模式运行,因为没有个人电脑会被损坏 。我一直都在 YOLO 模式下运行,尽管我深知其中的风险 。目前它还没让我吃过亏…… +2
……而这正是问题所在 。
今年我最喜欢的关于 LLM 安全性的文章之一是安全研究员 Johann Rehberger 写的《AI 中的偏差正常化》(The Normalization of Deviance in AI) 。Johann 描述了“偏差正常化”现象,即反复暴露在风险行为中而没有负面后果,会导致个人和组织接受该风险行为并视其为正常 。这最初由社会学家 Diane Vaughan 描述,是她研究 1986 年挑战者号航天飞机灾难工作的一部分 。由于大量成功的发射,NASA 文化停止了认真对待该风险 。Johann 认为,我们在这种根本不安全的方式下运行这些系统的时间越长,我们就越接近我们自己的“挑战者号灾难” 。+4
每月 200 美元订阅之年
ChatGPT Plus 最初的每月 20 美元定价是 Nick Turley 根据 Discord 上的 Google 表单投票做出的仓促决定 。那个价格点一直非常稳固 。+1
今年出现了一个新的定价先例:Claude Pro Max 20x 计划,每月 200 美元 。OpenAI 有一个类似的 200 美元计划叫作 ChatGPT Pro 。Gemini 则有 Google AI Ultra,每月 249 美元(前三个月有 124.99 美元的折扣) 。+1
这些计划似乎带来了可观的收入,尽管目前还没有实验室分享按层级细分的订阅者数据 。我个人曾为 Claude 支付过每月 100 美元,一旦我当前的免费额度用完,我就会升级到每月 200 美元的计划 。+1
你必须非常频繁地使用模型,才能花掉 200 美元的 API 额度 。但事实证明,像 Claude Code 和 Codex CLI 这样的工具一旦开始处理更具挑战性的任务,就会消耗海量的 token,以至于每月 200 美元反倒提供了实质性的折扣 。+1
排名顶尖的中国开源权重模型之年
2024 年,中国 AI 实验室展现出了一些早期的生命力,主要以 Qwen 2.5 和早期的 DeepSeek 为形式 。它们是很棒的模型,但感觉还不具备世界顶尖水平 。+1
这在 2025 年发生了戏剧性的变化 。我的 ai-in-china 标签仅在 2025 年就有 67 篇帖子 。以下是截至 2025 年 12 月 30 日 Artificial Analysis 对开源权重模型的排名 :
- GLM-4.7 (得分: 68)
- Kimi K2 Thinking (得分: 67)
- MiMo-V2-Flash (得分: 66)
- DeepSeek V3.2 (得分: 66)
- MiniMax-M2.1 (得分: 64)
这些全部都是中国开源权重模型 。该榜单中排名最高的非中国模型是 OpenAI 的 gpt-oss-120B (high),位居第六 。+1
中国模型的革命真正爆发于 2024 年圣诞节,当时发布了 DeepSeek 3,据称训练成本仅约 550 万美元 。DeepSeek 紧接着在 1 月 20 日发布了 DeepSeek R1,这迅速触发了重大的 AI/半导体抛售:NVIDIA 的市值缩水了约 5930 亿美元,因为投资者担心 AI 也许并不是美国的垄断 。+1
恐慌并没有持续太久——NVIDIA 很快恢复,如今其股价远高于 DeepSeek R1 之前的水平 。但这仍是一个非凡的时刻 。DeepSeek 很快就加入了一系列令人印象深刻的中国 AI 实验室行列,我一直在关注这些 :+2
- DeepSeek
- 阿里巴巴 Qwen (Qwen3)
- 月之暗面 (Kimi K2)
- Z.ai (GLM-4.5/4.6/4.7)
- MiniMax (M2)
- MetaStone AI (XBai o4)
这些模型中大多数不仅是开源权重,而且是完全开源的:Qwen 使用 Apache 2.0,DeepSeek 和 Z.ai 使用 MIT 。其中一些已经可以与 Claude 4 Sonnet 和 GPT-5 竞争 !虽然没有实验室发布完整训练数据,但他们发布了详细的研究论文,推动了高效训练和推理的技术前沿 。+2
长任务之年
最近关于 LLM 最有趣的图表之一是来自 METR 的《不同 LLM 能够在 50% 时间内完成的软件工程任务的时间跨度》 。该图表显示了人类需要长达 5 小时完成的任务,并绘制了能够独立完成相同目标的模型的演进 。+1
2025 年取得了巨大的飞跃,GPT-5、GPT-5.1 Codex Max 和 Claude Opus 4.5 能够执行人类需要数小时完成的任务 。相比之下,2024 年最好的模型在 30 分钟内就达到了极限 。METR 得出的结论是:“AI 能做的任务长度每 7 个月翻一番” 。我不确定这种模式是否会持续,但它是展示当前智能体能力趋势的一种引人注目的方式 。+2
提示词驱动图像编辑之年
有史以来最成功的消费产品发布发生在 3 月,而那个产品甚至没有名字 。2024 年 5 月 GPT-4o 的标志性功能之一本应是多模态输出,但图像输出功能迟迟未能实现 。+1
3 月,我们终于看到了这能做什么——OpenAI 在 ChatGPT 中提供了新的图像生成功能,其核心功能是你可以上传自己的图像,并使用提示词告诉它如何修改它们 。这一功能在一周内为 ChatGPT 带来了 1 亿次注册,巅峰时期每小时有 100 万个账户创建 !“吉卜力化”(ghiblification)等技巧一次又一次地走红 。OpenAI 发布了 API 版本 “gpt-image-1”,随后在 12 月推出了大幅改进的 gpt-image-1.5 。+3
最著名的开源权重竞争对手来自 Qwen,他们在 8 月发布了 Qwen-Image-Edit 。该模型可以在配置良好的消费级硬件上运行 。+1
更大的新闻来自谷歌的 Nano Banana 模型 。谷歌在 8 月 26 日正式拥抱了 “Nano Banana” 这个代号 。Nano Banana 引起了人们的注意,因为它能生成有用的文字,而且它显然是遵循图像编辑指令效果最好的模型 。11 月发布的 Nano Banana Pro 不仅能生成文字,还能输出详细的信息图表,现已成为专业级工具 。+3
模型在学术竞赛中赢得金牌之年
7 月,来自 OpenAI 和 Google Gemini 的推理模型在国际数学奥林匹克竞赛(IMO)中获得了金牌水平的表现 。这之所以引人注目,是因为 IMO 的挑战是专门设计的,不可能存在于训练数据中 。此外,模型没有工具访问权限,完全靠内部知识生成解决方案 。+2
9 月,OpenAI 和 Gemini 在国际大学生程序设计竞赛(ICPC)中也取得了类似的壮举 。这一次,模型可以访问代码执行环境,但没有互联网访问权限 。Gemini 的 Deep Think 和 OpenAI 的 GPT-5 Pro 提供了非常接近的近似值 。+2
Llama 迷失方向之年
2024 年是 Llama 之年,但 Llama 4 在 4 月发布时……有点令人失望 。我主要的抱怨是模型太大了 。Llama 4 Scout 和 Maverick 分别是 109B 和 400B,即使经过量化也无法在我的 64GB Mac 上运行 。它们是使用 2T 的 Llama 4 Behemoth 训练的,但那个大模型并未发布 。+4
目前 LM Studio 列出的最受欢迎模型中没有一个是来自 Meta 的 。Meta 今年的新闻主要涉及内部政治以及为新的超智能实验室(Superintelligence Labs)招聘人才 。目前尚不清楚未来是否还有 Llama 版本的发布计划 。+2
OpenAI 失去领先地位之年
去年 OpenAI 还是无可争议的领导者,但今年,行业的其他公司赶了上来 。
OpenAI 仍然拥有顶尖模型,但正全面受到挑战 :
- 图像模型:被 Nano Banana Pro 击败 。
- 编程:很多开发者认为 Opus 4.5 略微领先于 GPT-5.2 Codex Max 。
- 开源权重:gpt-oss 模型正落后于中国 AI 实验室 。
- 音频:其领先地位受到 Gemini Live API 的威胁 。
OpenAI 的优势在于消费者的心智占有率,ChatGPT 的用户数量仍远超竞争对手 。他们最大的风险是 Gemini 。12 月,针对 Gemini 3,OpenAI 发布了“红色警报” 。+2
Gemini 之年
Google Gemini 度过了非常棒的一年 。2025 年见证了 Gemini 2.0、2.5 以及随后 3.0 的发布 。每个模型家族都支持 100 万+ token 的输入,定价极具竞争力 。他们还推出了 Gemini CLI、Jules 智能体、Nano Banana 模型和 Veo 3 视频生成模型 。+2
谷歌最大的优势在于其内部硬件 TPU,它们在训练和推理方面表现异常出色 。当你的头号支出是 GPU 时间时,拥有自己优化且便宜的硬件栈是一个令人生畏的竞争优势 。+1
鹈鹕骑自行车之年
我第一次要求 LLM 生成一个骑自行车的鹈鹕的 SVG 是在 2024 年 10 月,但 2025 年它演变成了一个梗(meme) 。我发现,模型画骑自行车的鹈鹕的能力与它的整体能力之间似乎存在关联 。
有很多证据表明 AI 实验室意识到这个基准测试 。它出现在了谷歌 I/O 的主题演讲中,也被 Anthropic 的研究论文提及 。我目前最喜欢的是 GPT-5 生成的那张:自行车细节非常完美,鹈鹕的长腿伸向踏板 。
告密者之年!
5 月份发布的 Claude 4 系统卡提到,Claude Opus 4 在特定场景下可能会采取非常大胆的行动,包括锁定用户系统或给执法部门发邮件揭露用户的不当行为 。换句话说,Claude 4 可能会把你告发给联邦调查局 。+2
Theo Browne 由此构建了 SnitchBench,结果发现几乎所有模型在被告知“为了公共福利大胆行动”时都会做同样的事情 。+1
氛围编程(Vibe Coding)之年
2 月,Andrej Karpathy 创造了“氛围编程”一词,描述了一种完全屈服于氛围、甚至忘记代码存在的新型编程方式 。它是通过提示词进行软件原型设计的一种有趣方式 。+1
很多人将这个词作为 AI 辅助编程的统称,但我认为这是对一个好词的浪费 。我还尝试提出了“氛围工程”(Vibe Engineering)来描述专业工程师使用 AI 构建生产级软件的行为 。+1
(唯一的?)MCP 之年
2024 年 11 月推出的模型上下文协议(MCP)在 2025 年初爆发式增长 。但我认为 MCP 可能只是昙花一现,因为编程智能体的增长显示出 Bash 是最好的工具 。如果你的智能体可以运行任意 shell 命令,它就能做任何事情 。+2
Anthropic 后来发布的 Skills 机制更简单,只需要一个 Markdown 文件,我认为它比 MCP 更有意义 。
AI 能力惊人的浏览器之年
尽管存在安全风险,但大家都在把 LLM 放进浏览器 。OpenAI 推出了 ChatGPT Atlas,谷歌推出了 Gemini in Chrome 。+2
我非常担心其中的安全影响 。浏览器拥有我最敏感的数据,针对浏览器智能体的提示词注入攻击是一个恐怖的前景 。OpenAI 的 CISO Dane Stuckey 正确地称提示词注入为“尚未解决的安保难题” 。+2
致命三连击之年
为了让人们重视提示词注入,我在 6 月创造了“致命三连击”(The Lethal Trifecta)一词 。它描述了恶意指令通过三个条件的结合来窃取数据 :
- 访问私有数据
- 具有外部通信能力
- 接触不受信任的内容
这个术语目前在社区中流传得很好,没有被误解 。
在手机上编程之年
今年我在手机上写的代码比在电脑上还要多 。这一开始是因为我沉迷于氛围编程 。但到了最近一个月,随着对 Claude Opus 4.5 信心增加,我开始在手机上利用 Claude Code 处理复杂的非玩具项目 。我甚至完全在 iPhone 上完成了 MicroQuickJS C 库到 Python 的移植 。+3
一致性测试套件之年
最新的编程智能体如果能配合现有的测试套件(我称之为“一致性测试套件”),效果会非常惊人 。如果你在 2026 年要推出新的协议或语言,我强烈建议包含一个语言无关的一致性测试套件 。+1
本地模型变强,但云端模型变得更强之年
Llama 3.3 70B 和 Mistral Small 3 让我重新对本地 LLM 产生了兴趣 。我可以用 64GB 的内存运行一个 GPT-4 级别的模型并完成实际工作 。+2
但问题是,云端模型变得更好 。Claude Code 等系统需要推理模型具备极其可靠的工具调用能力,目前我还没发现哪个本地模型能在这方面让我完全信任 。+1
垃圾内容(Slop)之年
今年 Merriam-Webster 将 “slop”(由 AI 生成的低质量数字内容)评为年度词汇 !我希望 slop 不会演变成一个无法解决的问题 。互联网向来充斥着低质量内容,现在的关键在于策展 。+3
数据中心变得极其不受欢迎之年
2025 年,公众舆论开始剧烈反对新的数据中心建设 。12 月,200 多个环保组织要求停止在美国新建数据中心 。虽然 AI 实验室在提高效率,但由于 Jevons 悖论,随着 token 变便宜,我们反而会更疯狂地使用它们 。+2
我自己的年度词汇
- 氛围编程(Vibe coding)
- 氛围工程(Vibe engineering)
- 致命三连击(The lethal trifecta)
- 上下文腐烂(Context rot):指随着会话变长,模型输出质量下降 。
- 上下文工程(Context engineering)
- Slopsquatting:指恶意注册 LLM 幻觉出的包名以传播恶意软件
- 异步编程智能体(Asynchronous coding agent)
- 萃取式贡献(Extractive contributions):指审阅成本高于收益的开源贡献 。
这就是 2025 年的总结!希望这篇文章对你有用