在当前大型语言模型(LLM)发展的热潮中,推理时计算资源扩展(inference-time compute scaling)已成为2025年最受关注的研究方向之一。这项技术的核心目标在于,在不更改模型权重的前提下,通过增加推理阶段的计算资源来显著提升模型的推理能力。
研究人员正通过一种由多个模型协作的架构来优化推理表现:一个初始模型生成回应,随后“反馈模型”提供评估意见,最终由“编辑模型”根据反馈进行优化。这一过程依赖大量人工注释的响应与反馈数据进行训练,从而使得反馈和编辑模型能在推理过程中有效提升回答质量。
目前被广泛讨论的技术策略包括从简单的令牌干预方法(如“等待”令牌)到复杂的搜索与优化方法,例如测试时偏好优化(Test-Time Preference Optimization)和关联链思维(Chain-of-Associated-Thoughts)。这些手段在多项推理基准测试中显示出显著成效。
值得注意的是,这些策略显示出一种趋势:即使是参数量较小的模型,在推理过程中引入额外计算资源后,也能在推理表现上逼近甚至超越传统方法下的大模型。此趋势暗示,合理设计的推理策略有望弥合小模型与大型模型之间的性能差距,尤其在成本控制方面具有明显优势。
然而,这一策略的关键限制在于成本问题。增加推理阶段的计算资源将不可避免地提升推理成本。因此,使用小模型配合强推理扩展,还是直接训练一个大型模型并在推理阶段使用更少资源,这一权衡需根据实际使用频率与预算进行精确计算。例如,有数据显示,尽管o1模型采用高强度的推理扩展技术,其总体推理成本仍略低于可能并未使用扩展策略的更大型GPT-4.5模型。
目前尚不清楚GPT-4.5在配合o1或o3风格的推理扩展后将表现如何,但该方向已引发业内高度关注。
尽管如此,推理时计算扩展并非万能策略。不同任务的难度和性质会显著影响各种方法的效果。例如,蒙特卡洛树搜索(Monte Carlo Tree Search)、自我回溯(self-backtracking)、动态深度调整(dynamic-depth scaling)等方法在某些任务中表现卓越,在其他任务中却可能收效甚微。早期的研究已表明,目前尚无一种技术能在所有任务中一骑绝尘。
此外,不少方法在提升推理能力的同时牺牲了响应速度,这可能令部分用户感到困扰。许多用户在处理简单任务时会倾向于使用响应速度更快的模型(如GPT4o)而非推理能力更强但响应较慢的模型(如o1)。
展望未来,研究方向大致将沿着两个主轴持续发展:一是围绕如何打造在各类基准测试中表现最佳的模型,二是致力于在不同推理任务中实现成本与性能的最佳平衡。无论哪种方向,其共同点在于推理时扩展技术几乎可以无缝集成进任何现有的大语言模型,使其在特定任务中表现更佳。
产业层面也正在掀起一场“按需思考”(thinking on demand)的潮流。自DeepSeek R1发布以来,多家大型语言模型提供商已陆续添加了“思考”功能的开关,允许用户选择是否启用推理扩展功能。尽管具体机制尚未公开,但普遍认为这些开关实质上是在调整推理阶段的计算资源投入。
例如,Claude 3.7 Sonnet与Grok 3均引入了可启用的“思考模式”;而OpenAI则采用切换模型的方式,例如GPT4o、GPT-4.5 与 o1、o3-mini等,以供用户选择推理强度不同的模型。值得注意的是,OpenAI CEO曾表示,GPT-4.5将可能是公司最后一款未内置“思考模式”的模型。在开源领域,IBM也为其Granite模型加入了显式的“思考”切换功能。
综上所述,无论是通过推理时扩展,还是训练时扩展,增强大语言模型的推理能力已成为2025年的一项关键技术演进方向。可以预见的是,未来“推理能力”将不再是可选项或特殊功能,而是如同指令微调(instruction fine-tuning)与强化学习人类反馈(RLHF)等技术一样,成为基础模型开发中的标准配置。
由于推理时计算扩展的研究极为活跃,本文仅聚焦该方向。未来将有另一篇文章专门介绍训练时计算扩展在推理提升中的多种创新方法。