在当前大型语言模型(LLM)发展的热潮中,推理时计算资源扩展(inference-time compute scaling)已成为2025年最受关注的研究方向之一。这项技术的核心目标在于,在不更改模型权重的前提下,通过增加推理阶段的计算资源来显著提升模型的推理能力。 研究人员正通过一种由多个模型协作的架构来优化推理表现:一个初始模型生成回应,随后“反馈模型”提供评估意见,最终由“编辑模型”根据反馈进行优化。这一过程依赖大量人工注释的响应与反馈数据进行训练,从而使得反馈和编辑模型能在推理过程中有效提升回答质量。 目前被广泛讨论的技术策略包括从简单的令牌干预方法(如“等待”令牌)到复杂的搜索与优化方法,例如测试时偏好优化(Test-Time Preference Optimization)和关联链思维(Chain-of-Associated-Thoughts)。这些手段在多项推理基准测试中显示出显著成效。 值得注意的是,这些策略显示出一种趋势:即使是参数量较小的模型,在推理过程中引入额外计算资源后,也能在推理表现上逼近甚至超越传统方法下的大模型。此趋势暗示,合理设计的推理策略有望弥合小模型与大型模型之间的性能差距,尤其在成本控制方面具有明显优势。 然而,这一策略的关键限制在于成本问题。增加推理阶段的计算资源将不可避免地提升推理成本。因此,使用小模型配合强推理扩展,还是直接训练一个大型模型并在推理阶段使用更少资源,这一权衡需根据实际使用频率与预算进行精确计算。例如,有数据显示,尽管o1模型采用高强度的推理扩展技术,其总体推理成本仍略低于可能并未使用扩展策略的更大型GPT-4.5模型。 目前尚不清楚GPT-4.5在配合o1或o3风格的推理扩展后将表现如何,但该方向已引发业内高度关注。 尽管如此,推理时计算扩展并非万能策略。不同任务的难度和性质会显著影响各种方法的效果。例如,蒙特卡洛树搜索(Monte Carlo Tree Search)、自我回溯(self-backtracking)、动态深度调整(dynamic-depth scaling)等方法在某些任务中表现卓越,在其他任务中却可能收效甚微。早期的研究已表明,目前尚无一种技术能在所有任务中一骑绝尘。 此外,不少方法在提升推理能力的同时牺牲了响应速度,这可能令部分用户感到困扰。许多用户在处理简单任务时会倾向于使用响应速度更快的模型(如GPT4o)而非推理能力更强但响应较慢的模型(如o1)。 展望未来,研究方向大致将沿着两个主轴持续发展:一是围绕如何打造在各类基准测试中表现最佳的模型,二是致力于在不同推理任务中实现成本与性能的最佳平衡。无论哪种方向,其共同点在于推理时扩展技术几乎可以无缝集成进任何现有的大语言模型,使其在特定任务中表现更佳。 产业层面也正在掀起一场“按需思考”(thinking on demand)的潮流。自DeepSeek R1发布以来,多家大型语言模型提供商已陆续添加了“思考”功能的开关,允许用户选择是否启用推理扩展功能。尽管具体机制尚未公开,但普遍认为这些开关实质上是在调整推理阶段的计算资源投入。 例如,Claude 3.7 Sonnet与Grok 3均引入了可启用的“思考模式”;而OpenAI则采用切换模型的方式,例如GPT4o、GPT-4.5 与 o1、o3-mini等,以供用户选择推理强度不同的模型。值得注意的是,OpenAI CEO曾表示,GPT-4.5将可能是公司最后一款未内置“思考模式”的模型。在开源领域,IBM也为其Granite模型加入了显式的“思考”切换功能。 综上所述,无论是通过推理时扩展,还是训练时扩展,增强大语言模型的推理能力已成为2025年的一项关键技术演进方向。可以预见的是,未来“推理能力”将不再是可选项或特殊功能,而是如同指令微调(instruction fine-tuning)与强化学习人类反馈(RLHF)等技术一样,成为基础模型开发中的标准配置。 由于推理时计算扩展的研究极为活跃,本文仅聚焦该方向。未来将有另一篇文章专门介绍训练时计算扩展在推理提升中的多种创新方法。
谷歌 Gemini 模型新增“推理调节器”功能,引发行业对AI“过度思考”问题的关注
据报道,谷歌DeepMind近日为其最新顶级Gemini模型推出了一项新功能:开发者可通过一个“拨盘”调节模型在响应过程中投入多少“思考”时间。该功能虽表面上旨在帮助开发者节省运行成本,但也间接承认了一个行业性问题——推理模型正成为AI领域的热门趋势,却也容易陷入“过度思考”的困境,从而导致不必要的计算资源浪费。 自2019年以来,增强AI模型能力的传统路径主要有两条:一是扩大训练数据量、增大模型规模,二是通过更优的反馈信号优化答案质量。然而,自2024年底开始,谷歌DeepMind及其他科技公司纷纷开始尝试第三种方法:推理能力的强化。 DeepMind首席研究科学家Jack Rae表示,团队一直在致力于“推动模型‘思考’能力的发展”。这一策略在今年初的DeepSeek-R1模型发布后快速走红。对AI公司而言,这种方法具有重要吸引力——只需训练现有模型以更务实的方式处理问题,即可增强模型能力,而无需从头打造新模型。 但与此同时,这种“思考能力”的增强也带来了实实在在的计算与经济成本。当前推理模型的排行榜显示,完成某些任务一次可能花费高达200美元。尽管成本高昂,但其优势在于能更好地处理诸如代码分析或多文档信息提取等复杂任务。 DeepMind技术主管Koray Kavukcuoglu指出,模型“在不同假设与思路上反复迭代的次数越多,就越有可能找到正确答案”。但这并非在所有任务中都适用。Gemini产品团队负责人Tulsee Doshi指出:“在简单任务中,模型思考的确远超所需。”她特指的是此次发布的Gemini Flash 2.5模型,该模型配备了可调整的推理滑块,允许开发者减少其“思考”量。 推理过度不仅提高了模型运行成本,也显著增加了AI的能源消耗与碳足迹。Hugging Face的工程师Nathan Habib研究了推理模型的快速扩散现象,他指出,当前业界对推理模型的使用已然泛滥。为了追求更聪明的AI,不少企业甚至在无需推理的场景中也强行“上锤”,即便根本没有“钉子”存在。 OpenAI在今年2月宣布,其新推出的模型将是最后一款非推理模型,进一步表明行业正在全面转向推理范式。Habib表示,虽然推理在某些任务中带来“不可否认”的性能提升,但在大多数普通用户使用AI的场景中,这些收益并不明显。 即使应用得当,推理机制也可能“崩溃”。Habib展示了一个推理模型在解答有机化学题时的失败案例:模型起初正常推理,但中途开始不断输出“Wait, but …”(等等,但是……)达数百次,最终耗时远超非推理模型。DeepMind模型评估人员Kate Olszewska也承认,谷歌模型有时会陷入“思维循环”。 因此,谷歌开发的“推理拨盘”旨在缓解这一问题。目前该功能仅面向开发者版本,允许他们设置模型在单个任务中可使用的计算预算。推理模式开启时,模型输出的成本约为非推理状态的六倍。 该功能的另一重要意义在于,当前尚不清楚哪些任务真正需要大量推理。DeepMind的Jack Rae坦言:“现在要明确界定哪些任务真正适合‘思考’,其实很难。” 尽管如此,一些任务已被明确归为适合高推理配置的范畴,例如代码生成(开发者可能会粘贴上百行代码请求帮助)与专家级研究报告撰写等。这些任务对推理能力要求较高,开发者可能愿意为更高质量输出承担更高成本。然而,谷歌仍需依赖开发者的反馈,确定中低推理等级在更多场景中是否“足够好”。 Habib认为,推理模型投资潮的兴起,正标志着AI研发范式的根本转变:“扩展规模的法则正在被推理逻辑取代。” AI企业如今不再一味追求更大的模型,而是寄望通过更长时间的“思考”来获得更优结果。据估计,过去几年中,AI公司在模型推理(即生成答案的实时调用)方面的开销已远超训练开销,而这一趋势在推理模型普及后将进一步加剧。推理环节也正成为AI碳排放的主要来源之一。 尽管许多模型使用“推理”或“思考”等具有人类意味的词语,Jack Rae也指出,其实这些术语的使用更多是为了便于理解。他表示:“这让我们能用一个简单的词描述复杂过程,同时人们也更容易理解其含义。”Kavukcuoglu补充称,谷歌并非试图模拟人类认知过程,而是专注于模型行为的功能性实现。 即使推理模型目前风头正劲,谷歌DeepMind也并非唯一参与者。DeepSeek在去年12月至今年1月发布结果后,其“开权重”策略震撼市场,甚至引发了近1万亿美元的股市波动。所谓“开权重”即公开模型的内部参数设置,使开发者可自行部署,而无需依赖谷歌或OpenAI的付费API访问。(需注意,“开源”则指包括训练数据在内的全面公开。) 面对DeepSeek等开权重模型的强势表现,为何开发者仍愿意选择谷歌的专有模型?Kavukcuoglu解释称,在代码、数学与金融等高精度场景中,模型需展现极强的准确性与逻辑处理能力,无论是开源还是专有,只要能胜任这些任务的模型,终将脱颖而出。 DeepMind坚信,推理能力将构建未来AI的核心。他总结道:“推理是通向智能的关键能力。一旦模型开始‘思考’,它的自主性就启动了。”
OpenAI 正在开发一款社交媒体平台
据《The Verge》援引知情人士消息,OpenAI 正在开发一款社交媒体平台,项目目前仍处于原型阶段。该平台计划整合 ChatGPT 等 AI 功能,例如图像生成,并将其嵌入社交内容流之中,以打造全新的互动体验。 虽然项目的最终形态尚未明确——尚不清楚会成为独立应用,还是将其纳入 ChatGPT 已有生态体系——但 OpenAI CEO Sam Altman 已开始就这一构想向外部征求反馈意见。据了解,ChatGPT 近期已成为全球下载量最高的应用程序,若新平台作为其扩展部分上线,将进一步巩固其用户粘性和生态闭环。 目前 OpenAI 尚未对外正式回应这一传闻。 若项目最终落地,OpenAI 将直接进入社交媒体战场,与 X(前 Twitter)、Meta 等科技巨头展开正面竞争,特别是在生成式 AI 与用户内容结合的关键领域。 行业深意:从AI工具到数据闭环 分析指出,OpenAI 试图打造社交平台,反映出一个清晰的行业趋势:AI 公司正加快构建属于自己的第一方数据渠道。与 Meta、X 等竞争者不同,OpenAI 目前主要依赖公开数据和第三方授权协议来训练模型,尚不拥有如同社交媒体那样海量、实时的用户生成内容。 相比之下,Meta 的 LLaMA 模型可直接调用 Facebook 和 Instagram 等平台的用户行为数据;而马斯克旗下的 Grok 模型则深度集成 X 平台实时内容。OpenAI 在这一层面上的“数据劣势”日益明显。 建立自有社交平台,将让 OpenAI 获得“训练数据直达通道”,不仅能够更及时地获取新鲜内容,还可有效降低对外部数据供应商的依赖,从而提升模型训练效率和响应时效。这种模式类似于 Google 通过搜索行为数据提升搜索引擎智能,或 Amazon 通过电商行为数据优化推荐系统的策略。 社交与AI产业正加速融合 OpenAI…
OpenAI 正在洽谈以约 30 亿美元收购 AI 编程助手公司 Windsurf
据《市场观察》2025 年 4 月 17 日报道,OpenAI 正在洽谈以约 30 亿美元收购 AI 编程助手公司 Windsurf,这将成为 OpenAI 迄今为止最大的一笔收购交易,也标志着该公司正式进军 AI 编程工具市场,与包括 Anysphere 在内的现有参与者展开直接竞争。 据悉,此前 OpenAI 曾试图收购 Anysphere,而后者目前正寻求以接近 100 亿美元估值融资。因未能成功达成收购协议,OpenAI 便将注意力转向 Windsurf。彭博社最早披露了这项转向及新收购意向。 Windsurf,前身为 Codeium,是一家发展迅速的 AI 编程助手公司。2025 年 2 月,TechCrunch 报道称,Windsurf 正在 Kleiner Perkins 领投下寻求以 28.5 亿美元估值进行新一轮融资。目前其年经常性收入已达 4000 万美元,且已从 General Catalyst 和 Greenoaks Capital 等机构累计筹得 2.43 亿美元融资。 与此同时,用户端也传出风声。近日,Windsurf 用户收到一封邮件,称平台即将发布公告,用户可选择以每月 10 美元的价格订阅其代码编辑器服务,这一举动被广泛视为收购传闻的侧面佐证。 此外,OpenAI…
Claude Research(研究模式)与 Google Workspace
Anthropic 于 2025 年 4 月 16 日宣布推出 Claude 模型的两项重大功能更新:Research(研究模式)与 Google Workspace 集成。这两项新功能标志着 Claude 在成为高效协作伙伴方面迈出了关键一步,进一步巩固其在专业与个人生产力领域中的角色定位。 1. Research:自动化、多角度的信息探索 新推出的 Research 功能重新定义了 Claude 获取并处理信息的方式。Claude 可自动进行多轮搜索,每一次搜索都基于前一轮结果进行改进,从而构建出更具深度与广度的答案。这种“代理式搜索策略”让模型能够主动识别待解问题、分析不同角度,并系统性展开推理。 在 Research 模式下,Claude 不仅能快速返回详尽的答案,还附带清晰易查的来源引用,让用户对信息的可信度充满信心。无论是日常办公中的市场调研,还是学术领域的文献分析,该功能都可在几分钟内提供高质量成果,大幅节省原本需要数小时完成的工作。 2. Google Workspace 集成:更深入理解你的工作语境 为了让 Claude 真正成为“上下文感知”的协作伙伴,此次更新新增了对 Google Workspace 的整合,包括 Gmail、Google Calendar 与 Google Docs。 连接 Workspace 后,Claude 可: 用户可以直接要求 Claude 整理上周的会议摘要、提取客户沟通中的行动项,甚至编写项目计划或建议书,而无需反复解释背景信息。所有输出均附带文档来源标注,确保内容可追溯且符合安全标准。 3. Claude Enterprise 增强功能:文档编目与智能检索 对于企业用户,Claude 还新增了…
OpenAI o3 与 o4-mini
OpenAI 于 2025 年 4 月 17 日正式发布了最新的 o 系列模型 —— o3 与 o4-mini,这是迄今为止最强大的推理模型,标志着 ChatGPT 在智能与实用性方面迈出了飞跃性的进步。这两个模型具备更长时间的“思考”能力,并首次实现了在 ChatGPT 中对所有工具的智能整合使用,包括网页搜索、代码执行(Python)、图像生成与分析、文件阅读等功能。这种“代理式”工具调用(agentic tool use)不仅让模型能根据任务自动决定是否、何时、如何使用工具,还极大提升了多步骤问题的解答质量。 在最新模型中,用户不再局限于被动提问,而是可以让模型作为思维伙伴深入展开分析、构建复杂的解决方案或执行任务流程。这意味着,从学术研究到商业咨询,从数学建模到图表生成,ChatGPT 的能力边界被重新定义。 o3:顶级推理模型,刷新多个基准测试记录 OpenAI o3 是目前最强的推理模型,尤其在代码、数学、科学和图像理解等任务中表现出色,刷新了包括 Codeforces、SWE-bench 和 MMMU 等多个权威基准测试的记录。o3 在面对需要多步骤推理的复杂问题时展现出极高的分析能力,外部专家评估显示其重大错误率比 o1 低 20%,在生物学、工程、数学等领域尤其突出。该模型的独特优势在于,其具备严谨的假设推导能力,并能自我反驳、调整逻辑路径。 o3 还具备强大的视觉推理能力,能够结合图表、手绘草图、照片等图像信息进行逻辑分析。例如,在解决科研类问题、工程结构分析或复杂图像描述任务时,其表现已超过 GPT‑4 系列,并成为 OpenAI 迄今最强的多模态模型之一。 o4-mini:轻量级推理模型,性能与效率兼备 o4-mini 是一款为速度与成本优化的轻量推理模型,但其性能依然远超同级别产品。在 2025 年 AIME 数学竞赛的测试中,o4-mini 在接入 Python 工具后达成 99.5% 的 pass@1,通过率几乎满分,远超前代模型。在 AIME 2024…
Gemini 2.5 Flash
Gemini产品管理总监Tulsee Doshi于2025年4月17日宣布,Gemini团队正式推出Gemini 2.5 Flash的预览版,并已通过Gemini API,在Google AI Studio和Vertex AI平台上线。这一版本是在广受欢迎的2.0 Flash基础上进行的重大升级,不仅大幅提升了推理能力,还继续保持高速响应和低成本的优势。值得一提的是,Gemini 2.5 Flash是首个真正意义上的“混合推理模型”,为开发者提供了“思考功能”的开关,并允许设定“思考预算”,以便在质量、成本和延迟之间取得最佳平衡。即便关闭思考功能,该模型仍可维持2.0 Flash的高速表现,同时在整体性能上有所提升。 Gemini 2.5系列属于“思考模型”,具备在生成回应前进行内在推理的能力。模型可以在输出结果前,先进行一段“思考”流程,以更深入理解用户的提示、拆解复杂任务并规划回答策略。对于那些需要多步推理的复杂任务(如解答数学题、分析研究性问题),这种预处理过程能显著提升回答的准确性和全面性。数据显示,Gemini 2.5 Flash在LMArena中的复杂提示(Hard Prompts)表现仅次于2.5 Pro,表现非常出色。 在成本与性能对比上,2.5 Flash以远低于其他主流模型的体量和价格,达到了相似甚至更优的表现,被定位为目前最具性价比的思考模型。其卓越的成本-性能比,使其成为Google在质量与成本的帕累托前沿中的又一重要产品。 为了满足不同使用场景下对质量、成本与响应速度的权衡,Gemini团队在2.5 Flash中引入了“思考预算”设置,允许开发者精细控制模型在思考阶段最多可生成的token数量。预算值越高,模型可进行更深入的推理,从而进一步提升回答质量。但需要指出的是,该预算只是上限设定,模型会依据任务复杂度自动决定实际的思考token数量,避免无谓消耗。 从实验数据来看,随着思考预算的提升,模型的推理质量也随之提高。2.5 Flash在训练过程中已具备“自主判断所需思考时间”的能力,因此能根据提示自动调整推理深度。 若开发者希望在尽可能降低成本和延迟的同时,仍享有较2.0 Flash更优的性能表现,只需将思考预算设置为0即可。此外,开发者可通过API参数或在Google AI Studio、Vertex AI中的滑动条进行预算设置,范围从0至24576 token不等。 在默认模式下,模型对不同类型的任务会自动决定思考的深浅。举例来说: 低推理需求的提示包括: 中等推理需求的提示包括: 高推理需求的提示包括: Gemini 2.5 Flash现已通过Gemini API在Google AI Studio与Vertex AI开放预览,同时在Gemini应用中设有专属下拉菜单供用户选择。开发者可尝试调整“thinking_budget”参数,探索如何通过可控推理来解决更复杂的问题。 例如,使用以下代码即可快速体验Gemini 2.5 Flash的推理能力: 更多API文档与推理指南可在官方开发者文档中查阅,或通过Gemini Cookbook中的代码示例入门。Gemini团队还将持续优化2.5 Flash版本,并计划在后续正式上线以支持全面的生产环境使用。
OpenAI最近放出了一波重磅更新
OpenAI最近放出了一波重磅更新,直接把AI圈搅了个天翻地覆。重点来了:GPT-4.1三款全新模型横空出世,分别是标准版GPT-4.1、精简版4.1 mini,还有迷你款4.1 nano,全部只通过API提供服务。这三位选手不但扩展了上下文处理范围,最多支持一百万个tokens,还在编程准确性、响应速度和成本控制方面全面升级,直逼效率巅峰。 在众多提升中,4.1主力版本在软件工程测试和长文本逻辑推理上,表现比GPT-4o还要硬核。虽然在处理超长文本时略显疲态,但整体依然亮眼。轻量级选手如4.1 mini更是价格杀疯了,比GPT-4o便宜83%,堪称性价比之王。现在通过Windsurf平台,开发者还能限时免费体验一把,简直不要太香。 另一边,OpenAI宣布将于七月前“退役”计算资源大户GPT-4.5,转而押宝更具可扩展性的模型阵容。而关于令人头秃的模型命名问题,CEO山姆·奥特曼亲自下场发推,承诺夏天前解决这“命名乱象”,顺带自嘲一波,网友表示这波幽默很加分。 此外,ChatGPT也迎来视觉类功能大升级——全新“图像库”标签正式上线,用户可以在网格视图中浏览和管理生成的图片。无论是iOS端还是网页版,免费、Plus或Pro用户通通能用,还贴心配备了快捷入口,想生成新内容?点一下就行,体验感直接拉满。
OpenAI 最新发布的 GPT-4.1 系列在 API 中正式上线
OpenAI 最新发布的 GPT-4.1 系列在 API 中正式上线!这次不只是模型升级,还带来了三个不同版本:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。整体性能全面超越 GPT-4o 系列,无论是写代码、听指令还是处理超长上下文,都有质的飞跃。 这批新模型最高支持 100 万个 token 的超长上下文理解,知识库也同步更新到了 2024 年 6 月,堪称最聪明的“记忆王”。在权威测试中表现亮眼,例如在 SWE-bench Verified 编程测试中,GPT-4.1 的完成率高达 54.6%,碾压 GPT-4o 和 GPT-4.5。 不仅如此,GPT-4.1 在指令执行方面也表现出色,在 Scale 的 MultiChallenge 测试中拿下了 38.3% 的高分,提升明显。而在理解无字幕长视频的 Video-MME 测试中更是一骑绝尘,得分 72%,再次刷新记录。 别看 mini 和 nano 版本体积小,实力可不含糊。GPT-4.1 mini 不仅在许多测试中击败了 GPT-4o,延迟还减半,费用省了 83%。至于 GPT-4.1 nano,它是迄今为止最快、最便宜的模型,专为高效处理分类和自动补全等任务而生,堪称“性价比天花板”。 在真实应用场景中,比如 Windsurf 和 Qodo…
谷歌的AI视频生成工具 Veo 2 正式开始在美国地区上线
谷歌的AI视频生成工具 Veo 2 正式开始在美国地区上线,走的是与OpenAI的 Sora 同场竞技的路线。这个新版本目前通过 Google AI Studio 向部分用户逐步开放。 在不久前的 Cloud Next 活动上,谷歌宣布 Veo 2 已进入“量产准备”阶段。而现在,包括 BleepingComputer 在内的一些用户已抢先获得试用权限,不过当前仅限美国地区。 Veo 2 能根据用户输入的指令生成动画视频,无论是简单的短语,还是结构复杂的文本描述,它都能理解并执行。一位早期测试者就用自己的草图让 Veo 2 生成了一段动画,画面流畅度和表现效果都“到位”。 目前,Veo 2 生成的视频最高支持 720p 分辨率,帧率为24fps,而且每段视频长度被限制在 8秒以内。生成成本也已公开:每秒收费0.35美元。 虽然功能已经开放,但 Google 还没全面铺开。如果你人在美国,可以直接在 AI Studio 看到 Veo 2 的开关;如果你不在美国,那就需要“科学上网”才可能看见这个新功能。 另外,有消息称,未来 Veo 2 的功能会整合进 Gemini 模型系统,但具体上线时间谷歌尚未公布。短期内想尝鲜的话,只能通过 AI Studio 单独体验。