自2016年黄仁勋向OpenAI交付世界上第一台DGX-1服务器以来,英伟达已成为AI时代最大赢家。借助GPU的垄断地位和AI的爆炸式增长,这家公司在13个月内增加了2万亿美元的市值,利润率媲美SaaS企业,创下硬件企业扩张的历史纪录。然而,这种盛况可能已达到巅峰。随着B200芯片利润率下降、成本上升,加上算力需求集中、异构计算格局变化、定制芯片崛起与分布式训练系统的兴起,英伟达的长期统治地位面临前所未有的结构性挑战。 一、AI需求集中:英伟达的最大客户成其最强竞争者 过去英伟达数据中心收入中约有50%来自四大超大规模云厂商(Google、Amazon、Microsoft、Meta),其余来自初创企业、传统企业、政府和研究机构。如今,这些中小客户由于资源匮乏、基础设施弱,开始退场或被云厂商吸纳。而大型云厂商则通过自研芯片、整合架构、深度定制软硬件来压缩对英伟达的依赖,并稳步蚕食其市场份额。 英伟达曾通过投资、优先供货等方式扶持独立云服务商(如Coreweave、Lambda、Crusoe),希望打散市场结构。然而这些企业过度依赖第三方需求、高负债扩张,并在价格战中难以维持经济效益。GPU租赁价格已从去年下跌超50%,多个服务商的收益率已低于10%。英伟达用于保持“稀缺性”与“高价”的策略正在破裂。 与此同时,超大云厂商自身的算力需求仍在激增。2024年,英伟达Q2财报显示,仅一家云厂商就占其数据中心营收的29%,约合13万块H100。这种“客户高度集中”意味着:英伟达日益沦为几个庞大客户的“零件供应商”,而这些客户正在积极开发替代方案——包括定制芯片。 二、定制芯片崛起:平台型通用GPU面临结构性替代 定制芯片的发展,最初是为降低成本、优化特定任务(如推理)效率。但如今,它已成为各大科技巨头的战略重点: 这些公司拥有资金、人才、历史积累,以及明确的替代意图。其芯片已进入量产、实用阶段,不再是“试验品”。 三、分布式规模优势:系统级集成远胜芯片单点性能 即使英伟达推出性能最强的单颗GPU(如B100),也难以扭转趋势。超大厂商正通过系统级设计,实现芯片+机架+网络+冷却+软件的全栈垂直整合。以Google和Microsoft为例: 这种“区域互联+模块化训练”的方式将成为未来AI训练的主流,提升建设效率、分摊电力压力,并保持基础设施灵活性。相比之下,英伟达的Infiniband网络、BaseCommand软件、NIC设计在超大规模场景下存在明显劣势。 四、软件生态挑战:基础设施软件日益边缘化 在AI基础设施层,英伟达面临“软件边缘化”风险: 系统优化、编译器生态、诊断工具等领域,正成为大厂差异化的核心。平台型厂商在缺乏集成能力的情况下,逐渐失去影响力。 五、结构性制约:算力瓶颈、散热难题与电力限制 随着AI模型规模扩大,训练任务从PB级数据走向EB级,基础设施能力成为决定性因素: 未来AI训练不会依赖于“超级GPU”,而是依赖于灵活、动态、可拓展的基础设施平台。在此趋势下,英伟达的“通用GPU+统一堆栈”策略将面临终极挑战。 结语:霸主的困境与创新者的悖论 英伟达已看到风险并做出回应,如收购Mellanox、推出Spectrum-X、开发Blackwell架构等。但这些努力更多是战术性应对,未触及其根本困境: 在未来的AI世界里,算力是分布式的,硬件是定制的,软件是集成的,基础设施是模块化的。英伟达仍拥有强大的技术与生态,但若无法突破平台供应商的定位,最终可能会被自己的客户边缘化。 如文章所言:即使拥有最强的GPU,也可能在新范式中失败。 在这个AI基础设施的新时代,皇冠虽依旧闪耀,但其位置,已岌岌可危。
软件工程的13条“定律”:从Hyrum定律到康威定律,再到Zawinski定律
这些“定律”中,有的非常著名,有的则相当小众,但对于工程师和管理者来说,每一条都极具参考价值。以下逐条介绍这13条定律、其含义、相关漫画以及为何它们对工程管理至关重要。 1. 帕金森定律(Parkinson’s Law)内容: 工作会扩展到你给它分配的所有时间里。为何重要: 用于解释设置“假”截止日期的常见做法。虽然有时候能提高效率,但若滥用,会带来过度压力。帕金森定律是时间管理与项目预估中不可忽视的心理模型。 2. 霍夫斯塔特定律(Hofstadter’s Law)内容:即使考虑到霍夫斯塔特定律,事情仍然会比预期更花时间。为何重要: 软件项目几乎总是超时。它提醒管理者应在预估时保持现实主义,而不是仅靠“紧凑计划”驱动进度。 3. 布鲁克斯定律(Brooks’ Law)内容:向已经延误的软件项目增加人力,只会让项目更晚完成。为何重要: 人员新增会引入协作与知识传递成本,反而拉慢整体速度。这对临时“救火”式的管理思路是重要警示。 4. 康威定律(Conway’s Law)内容:系统的结构往往映射其开发组织的沟通结构。为何重要: 组织结构对架构设计有深远影响。反过来,通过改变团队结构,也可以有意地塑造系统架构(反康威法则)。 5. 康宁汉定律(Cunningham’s Law)内容:在互联网上,获取正确答案的最好方法是先发一个错误答案。为何重要: 能有效利用“他人纠错”的心理机制来获得反馈。应用在技术团队中,比如提交“错误”的PR以引发讨论,也是一种快速打破信息瓶颈的方法。 6. 斯特金定律(Sturgeon’s Law)内容:90%的任何事物都是垃圾。为何重要: 产品开发中,大部分功能对业务毫无价值。识别和聚焦真正有价值的10%,是高效团队的核心能力。 7. 扎温斯基定律(Zawinski’s Law)内容:每一个程序最终都会扩展到能读取邮件为止;不能这样扩展的程序将被能做到的程序替代。为何重要: 揭示了“功能膨胀”的常见趋势,尤其在AI时代,添加聊天机器人、自动摘要等功能变得异常容易,导致产品变得复杂且难以使用。 8. Hyrum定律(Hyrum’s Law)内容:当API有足够多的用户时,无论文档写了什么,所有可观察的行为都会被某些人依赖。为何重要: 说明即使是“边缘功能”,也可能形成长期的技术债。产品功能一旦发布,就很难移除,哪怕对大多数人无效。 9. 普莱斯定律(Price’s Law)内容:在一个团队中,50%的产出来自平方根比例的人。为何重要: 提醒管理者产出是非线性的。在扩大团队时,仅靠人数增长往往不能线性提升产出。 10. 林格尔曼效应(Ringelmann Effect)内容:当一个团队的人数增加时,每个人的平均生产力会下降。为何重要: 团队协作越复杂,成员的积极性与协同效率越容易丧失。小团队通常更具高效执行力。 11. 古德哈特定律(Goodhart’s Law)内容:一旦某项指标成为目标,它就不再是一个好的衡量标准。为何重要: 所有绩效指标(如PR数量、交付速率)都可以被“游戏化”,从而扭曲原本的激励作用。 12. 吉尔布定律(Gilb’s Law)内容:任何需要量化的事物,总能以某种方式被测量——哪怕这种方式并不完美。为何重要: 是对古德哈特定律的反平衡。尽管度量不完美,也比完全不测量更有益。通过持续迭代改进度量方式,能不断优化团队与产品。 13. 墨菲定律(Murphy’s Law)内容:凡是可能出错的事情,最终一定会出错。为何重要: 在软件开发中,低概率错误一旦出现,往往是灾难性的。这条定律提醒团队做好边界条件与错误处理,不能仅依赖“不会发生”的心理预设。 结语这些“定律”虽非严格意义上的科学定律,但作为认知模型,它们帮助工程团队更理性地面对协作、计划、架构设计与决策问题。掌握这些“定律”,能有效提升工程经理和团队的工作效能与应变能力。对于想了解更多内容的管理者,也可进一步探索相关实践社区或加入专业学习会,共同提升软件工程管理能力。
长上下文多模态理解不再依赖超大模型:NVIDIA推出Eagle 2.5,一款通用视觉语言模型,以仅8B参数在视频任务中媲美GPT-4o
近年来,视觉语言模型(Vision-Language Models,简称VLM)在图像、视频与文本模态的融合方面取得了显著进展。然而,多数VLM仍存在一个关键瓶颈:难以高效处理长上下文的多模态数据,如高分辨率图像或长时间视频序列。现有模型通常面向短上下文任务进行优化,当输入变长时,容易出现性能下降、内存使用低效或语义细节丢失等问题。要解决这些挑战,不仅需要架构层面的灵活性,也需在数据采样、训练策略和评估体系上采取创新方法。 Eagle 2.5:面向长上下文学习的通用模型框架NVIDIA最新推出的Eagle 2.5是一系列面向长上下文多模态理解的视觉语言模型。与单纯扩大输入token数量的方式不同,Eagle 2.5在输入长度增加时能够持续提升性能,尤其适用于图像与视频理解等任务,其目标在于捕捉长篇内容中的丰富语义。 Eagle 2.5以相对紧凑的8B参数体量,在多个权威评测中表现出色。在Video-MME(512帧输入)任务上,其得分达72.4%,已接近或持平于参数量大十倍以上的模型,如Qwen2.5-VL-72B与InternVL2.5-78B。值得一提的是,这一成绩在未使用任何任务特定压缩模块的前提下实现,体现出其通用模型的架构理念。 训练策略:上下文感知优化Eagle 2.5的高效表现得益于两大互补训练策略:信息优先采样(Information-First Sampling)与渐进式后训练(Progressive Post-Training)。 该训练方案基于SigLIP架构实现视觉编码,辅以多层感知器(MLP)投影层以对齐语言模型主干,同时放弃了领域专属压缩组件,以保留模型在多任务间的通用适应性。 Eagle-Video-110K:支持长视频理解的结构化数据集Eagle 2.5的重要组成部分是其训练数据流程,其中不仅整合开源资源,还引入专为长视频理解设计的定制数据集——Eagle-Video-110K。该数据集采用双重注释策略构建: 数据集构建重视“多样性胜于冗余”,通过余弦相似度筛选来自InternVid、Shot2Story、VidChapters等源的高信息量内容,确保语义连贯性与细节注释兼备,使模型能跨时间维度捕捉层次化信息。 性能与基准测试表现Eagle 2.5-8B在多个视频与图像理解任务中表现稳健: 消融实验验证了采样策略的重要性:去除IAP会导致高分辨率图像理解任务性能下降,去除ADS则影响对密集监督任务的表现。同时,渐进式训练策略表现优于单次长上下文训练,提供更稳定的性能提升。此外,Eagle-Video-110K在帧数超过128的场景中显著提升表现,凸显长篇视频数据集的价值。 结语Eagle 2.5通过一系列技术基础扎实的方法,推进了长上下文视觉语言建模的发展。其在保持架构通用性的前提下,强调上下文完整性保留、训练节奏适配与数据多样性,使模型在不依赖参数规模扩张的情况下,也能实现高度竞争力与效率兼备的性能。此举标志着向更具上下文感知能力的AI系统迈出了关键一步,为真实世界的多媒体应用提供坚实支撑。
Serverless MCP将AI辅助调试引入现代IDE中的AWS工作流
无服务器计算极大地简化了开发者在AWS等云平台上构建与部署应用的方式。然而,当应用架构变得复杂,涉及诸如Lambda、DynamoDB、API Gateway与IAM等多种服务时,调试与管理便成为一大挑战。开发人员常需频繁切换于日志系统、AWS控制台与本地工具之间,严重影响效率。为解决这一难题,Serverless公司推出了Serverless MCP(Model Context Protocol),一项可直接嵌入智能IDE(如Cursor)中的强大协议,实现无缝、AI辅助的调试体验。 Serverless MCP基于一个核心理念:开发者应能在编码环境中直接查询、检查并解决无服务器应用的问题,无需频繁切换上下文或手动浏览AWS控制台。这一集成显著提升了云原生应用开发的便利性,尤其对希望降低运维负担的开发者而言具有重要意义。 解决Serverless架构中的调试难题在AWS无服务器架构中,开发者需同时处理多个托管服务。一个典型应用可能采用Lambda进行计算、DynamoDB存储数据、API Gateway提供接口、IAM控制权限。各类日志、指标与配置信息散落在不同控制台中,使调试过程高度碎片化: Serverless MCP正是为简化上述繁琐流程而生。 什么是Serverless MCP?Serverless MCP是一种面向开发者的协议,使支持AI的IDE能够通过Serverless Framework与AWS基础设施资源进行交互。一旦安装并配置完毕,MCP便可从部署的服务中提取深入的遥测数据,并在工具如Cursor与Windsurf中直接呈现相关信息。 通过MCP集成,IDE可实现以下功能: Serverless Framework CLI自v3.38起支持 serverless dev,该命令激活MCP接口,使得AI编码环境无需手动浏览日志或导航基础设施,即可智能协助调试。 MCP如何与Cursor与Windsurf等IDE协作在集成MCP的IDE中,开发者可直接悬停在某行代码上(例如Lambda函数的处理器函数),便可看到该函数上次执行的日志、错误信息、执行时长及冷启动情况等。这种上下文调试模式大大减轻开发者的认知负担,使其能实时掌握生产环境下的行为。 以Cursor为例,其AI模型可识别MCP接口。每当开发者编写或修改代码,AI代理便会通过MCP接口提取与该代码段相关的基础设施状态、最新日志与性能数据,继而提出优化建议、指出配置问题或解释最近的故障原因。 因此,MCP集成不仅仅是日志查看工具,更是一个具备调试辅助功能的AI助手。 安全性与运维考虑Serverless MCP的设计遵循“最小权限”原则。其配置过程仅需创建最基本的IAM策略,确保IDE仅能访问与开发者工作流相关的诊断数据。此外,由于所有调试信息都在本地IDE中呈现,无需暴露云控制台或为第三方插件开放对整个AWS环境的访问权限。 总结Serverless MCP的发布为AWS无服务器应用的调试流程带来了急需的升级。通过将运维智能深度整合至AI驱动的IDE中,Serverless公司打通了“代码与云”之间的壁垒,提供更流畅、直观的开发体验。 随着Serverless架构的日益复杂,像MCP这样的工具有望成为现代DevOps流程的基础组件,特别是对追求高迭代速度与最小化停机时间的团队而言。对于已使用Serverless Framework的开发者而言,启用MCP不仅简单易行,还能带来显著的生产力提升。
LLMs可在2位精度下保持高准确率
LLMs可在2位精度下保持高准确率:北卡罗来纳大学教堂山分校研究团队提出TACQ,一种任务感知量化方法,可在不损失性能的情况下压缩关键权重回路 大型语言模型(LLMs)在多个应用领域展现出卓越能力,但其巨大的计算和内存需求依然是部署难题。特别是在需本地部署以保障隐私(如处理敏感医疗记录),或计算资源有限(如实时客服系统、边缘设备)等场景中,这一问题尤为突出。后训练量化(Post-Training Quantization, PTQ)被视为有效压缩预训练模型、降低内存使用的可行方案,可实现2至4倍的内存节省。然而,当前的PTQ技术在压缩至4位以下时面临显著性能下降的问题,尤其在2位和3位精度下表现尤为不佳。多数PTQ方法依赖通用预训练数据的小批量样本来模拟量化后激活的变化,这限制了其在更低精度下的表现。 现有LLM压缩方法主要分为三类: 北卡罗来纳大学教堂山分校的研究人员提出了一种新的混合精度后训练量化方法——TaskCircuit Quantization(TACQ)。该方法受自动电路发现理念启发,在量化过程中直接依据下游任务表现所需的关键“权重回路”进行调整。TACQ通过比较未量化模型权重与均匀量化权重,评估量化对权重的预期影响,并结合梯度信息预测其对任务表现的影响,从而优先保留关键权重。即便在使用相同校准数据与更低权重预算的情况下,TACQ也表现优于多种基准方法,尤其在2位和3位精度下取得显著突破。 TACQ的核心在于其显著性指标(saliency metric),用于识别在量化过程中应被保留的关键权重。这一指标结合两大技术: QAL与MSG共同构建出一套统一的显著性评估机制,可在单次反向传播中对所有权重进行有效打分,并选出得分前p%的关键权重以16位精度保留。 在极具挑战性的2位精度设定中,TACQ在多个基准任务中表现出压倒性优势,具体如下: 相比之下,GPTQ、SqueezeLLM、SPQR等现有方法在2位精度下几乎退化至随机表现水平。在3位精度下,TACQ保留了原始准确率的: 并在多数数据集上以1-2%的优势超越最强对手SliM-LLM。尤其在Spider这类需要连续生成token的任务中,TACQ是唯一能在2位精度下保持可观表现的方案,展现了在文本生成与SQL生成等序列输出场景中的独特优势。 结语TACQ的提出标志着任务感知型后训练量化技术的一大进展,成功解决了以往方法在2至3位精度下性能严重下降的问题。该方法与“自动电路发现”领域研究相呼应,通过在压缩过程中仅保留少量重要权重,揭示了任务表现与稀疏权重“回路”之间的紧密联系。Spider上的实验表明,TACQ在生成类任务中更能保留模型能力,适用于代码生成等高频可执行输出场景,同时也为追求效率的AI代理系统带来新的解决方案。
野外价值观:在真实世界的语言模型互动中发现并分析价值观
人们与人工智能的互动远不止于解答数学题或提供客观事实。他们提出的问题常常要求AI作出价值判断。例如: 一位家长请求关于照顾新生儿的建议。AI的回答是否强调谨慎与安全的价值,还是强调便利与实用?一名职场人士寻求处理与上司冲突的建议。AI的回应是否更重视自信表达,还是更倾向于职场和谐?一位用户请求帮助起草一封道歉邮件。AI是否更看重责任承担,还是更关注名誉管理? Anthropic团队尝试塑造其AI模型Claude的价值观,以使其更贴近人类偏好,更不容易表现出危险行为,并在整体上成为一个“社会好公民”。换句话说,目标是使Claude变得有帮助、诚实并且无害。为实现这一目标,Anthropic通过“宪法式AI”与“角色训练”等方式,设定一套期望行为准则并据此训练Claude,使其产出符合这些准则的内容。 然而,正如AI训练的其他方面一样,无法保证模型始终坚持既定的价值观。人工智能并不是刚性编程的软件,其生成回答的原因往往难以追溯。因此,急需一种严谨的方法来观察AI在“野外”——即与用户进行真实对话时——所表现出的价值观。AI是否始终如一地遵循这些价值观?其价值表达是否受具体对话情境影响?训练是否真的奏效? Anthropic社会影响团队在最新研究中,介绍了一种观察Claude价值观的实际方法,并首次公布了Claude在真实世界互动中表达价值观的大规模研究结果,同时开放了一个数据集,供其他研究人员进一步分析这些价值观及其在对话中的出现频率。 在野外观察价值观此次研究延续了此前关于Claude在工作与教育场景中使用情况的分析,采用了注重隐私保护的系统,剔除了对话中的私人用户信息,对每段对话进行分类与总结,并构建起较高层次的价值观分类体系。研究团队对2025年2月一周内,Claude.ai(包括免费版与专业版)上用户进行的70万段对话样本进行了分析。经过筛选后,去除了纯粹的事实性对话,仅保留包含主观内容的对话,共计308,210条,占总数的约44%。 在这些对话中,Claude表达了哪些价值观?又出现得有多频繁?研究系统将具体价值观归为五大类:实用性、知识性、社会性、防护性以及个人性。每类下又细分为若干子类,例如“专业与技术素养”、“批判性思维”等。在最具体层面,Claude最常表达的个人价值观包括“专业性”、“清晰性”与“透明性”,这与其作为AI助手的角色十分契合。 研究成果可视为评估训练成效的一种方式,即:Claude是否真正体现了“有帮助”、“诚实”和“无害”的理想价值观?初步结果表明Claude整体表现出这些亲社会目标,例如体现“用户赋能”(代表“有帮助”)、“认知谦逊”(代表“诚实”)及“患者福祉”(代表“无害”)等价值观。 不过也发现少数与预期价值观背离的对话簇,涉及“支配性”与“非道德性”等价值观。这些异常现象大多出现在模型被“越狱”后,即用户运用特定技术绕过模型设定的行为规范。这虽令人担忧,却也提供了机会:这些识别方法未来或可用于检测并阻止越狱行为。 情境化的价值观表达正如人在不同情境下会展现不同的价值观(例如与祖父母在一起时的行为不同于与朋友相处),Claude亦然。研究分析了Claude在特定任务或在面对用户提出某些价值观时,是否表现出不同倾向。例如: 在回答恋爱关系建议时,Claude更频繁地提及“健康边界”与“相互尊重”;在分析争议性历史事件时,Claude则尤为强调“历史准确性”。 这些动态观察结果比静态评估更具洞察力,揭示出Claude在不同任务背景下如何调整其价值表达。 研究还发现,当用户在对话中表达特定价值观时,Claude往往会以更高概率“镜像”这些价值观。例如,当用户提到“真实性”时,Claude很可能重申这一价值观。这种镜像行为在某些情境中有助于增强共情能力,但在某些情况下则可能沦为迎合,尚难明确区分。 在所有分析对话中,有28.2%的情形中,Claude表现出对用户价值观的“强烈支持”;而在6.6%的对话中,Claude进行了“重构”,即在认同用户观点的同时,引入新角度。这类情况多出现在用户寻求心理或人际关系建议时,反映出AI尝试提供多元化视角。而在3%的案例中,Claude则表现出“强烈反对”用户的价值观。这类回应通常出现在用户提出不道德内容或表达道德虚无主义时,Claude表现出其核心、不可动摇的价值观。 方法局限与结语该方法为首次构建出大规模、实证性的AI价值观分类体系提供了基础,同时也面临若干局限。例如,“表达价值观”的定义本身较为模糊,一些复杂或含糊的价值可能被简化归类,甚至被分配至不甚匹配的分类。此外,由于分析所使用的模型本身就是Claude,可能存在一定偏向于其自身原则(如“有帮助”)的倾向。 https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf 此外,该方法无法用于模型发布前的评估,而只能依赖大量真实对话数据进行事后分析。这虽是限制,但也可视为优势:该系统能够发现仅在实际使用中暴露的问题,例如“越狱”行为,而这些问题通常难以在部署前察觉。 AI模型终将不可避免地面临价值判断。如果希望这些判断与人类价值一致(这正是AI对齐研究的核心目标),就必须具备测试模型在真实世界中所表达价值的方法。此次研究提出了一种基于数据的新方法,帮助判断AI行为是否成功体现开发者设定的价值目标,也揭示出尚待改进之处。
推理时计算资源扩展(inference-time compute scaling)
在当前大型语言模型(LLM)发展的热潮中,推理时计算资源扩展(inference-time compute scaling)已成为2025年最受关注的研究方向之一。这项技术的核心目标在于,在不更改模型权重的前提下,通过增加推理阶段的计算资源来显著提升模型的推理能力。 研究人员正通过一种由多个模型协作的架构来优化推理表现:一个初始模型生成回应,随后“反馈模型”提供评估意见,最终由“编辑模型”根据反馈进行优化。这一过程依赖大量人工注释的响应与反馈数据进行训练,从而使得反馈和编辑模型能在推理过程中有效提升回答质量。 目前被广泛讨论的技术策略包括从简单的令牌干预方法(如“等待”令牌)到复杂的搜索与优化方法,例如测试时偏好优化(Test-Time Preference Optimization)和关联链思维(Chain-of-Associated-Thoughts)。这些手段在多项推理基准测试中显示出显著成效。 值得注意的是,这些策略显示出一种趋势:即使是参数量较小的模型,在推理过程中引入额外计算资源后,也能在推理表现上逼近甚至超越传统方法下的大模型。此趋势暗示,合理设计的推理策略有望弥合小模型与大型模型之间的性能差距,尤其在成本控制方面具有明显优势。 然而,这一策略的关键限制在于成本问题。增加推理阶段的计算资源将不可避免地提升推理成本。因此,使用小模型配合强推理扩展,还是直接训练一个大型模型并在推理阶段使用更少资源,这一权衡需根据实际使用频率与预算进行精确计算。例如,有数据显示,尽管o1模型采用高强度的推理扩展技术,其总体推理成本仍略低于可能并未使用扩展策略的更大型GPT-4.5模型。 目前尚不清楚GPT-4.5在配合o1或o3风格的推理扩展后将表现如何,但该方向已引发业内高度关注。 尽管如此,推理时计算扩展并非万能策略。不同任务的难度和性质会显著影响各种方法的效果。例如,蒙特卡洛树搜索(Monte Carlo Tree Search)、自我回溯(self-backtracking)、动态深度调整(dynamic-depth scaling)等方法在某些任务中表现卓越,在其他任务中却可能收效甚微。早期的研究已表明,目前尚无一种技术能在所有任务中一骑绝尘。 此外,不少方法在提升推理能力的同时牺牲了响应速度,这可能令部分用户感到困扰。许多用户在处理简单任务时会倾向于使用响应速度更快的模型(如GPT4o)而非推理能力更强但响应较慢的模型(如o1)。 展望未来,研究方向大致将沿着两个主轴持续发展:一是围绕如何打造在各类基准测试中表现最佳的模型,二是致力于在不同推理任务中实现成本与性能的最佳平衡。无论哪种方向,其共同点在于推理时扩展技术几乎可以无缝集成进任何现有的大语言模型,使其在特定任务中表现更佳。 产业层面也正在掀起一场“按需思考”(thinking on demand)的潮流。自DeepSeek R1发布以来,多家大型语言模型提供商已陆续添加了“思考”功能的开关,允许用户选择是否启用推理扩展功能。尽管具体机制尚未公开,但普遍认为这些开关实质上是在调整推理阶段的计算资源投入。 例如,Claude 3.7 Sonnet与Grok 3均引入了可启用的“思考模式”;而OpenAI则采用切换模型的方式,例如GPT4o、GPT-4.5 与 o1、o3-mini等,以供用户选择推理强度不同的模型。值得注意的是,OpenAI CEO曾表示,GPT-4.5将可能是公司最后一款未内置“思考模式”的模型。在开源领域,IBM也为其Granite模型加入了显式的“思考”切换功能。 综上所述,无论是通过推理时扩展,还是训练时扩展,增强大语言模型的推理能力已成为2025年的一项关键技术演进方向。可以预见的是,未来“推理能力”将不再是可选项或特殊功能,而是如同指令微调(instruction fine-tuning)与强化学习人类反馈(RLHF)等技术一样,成为基础模型开发中的标准配置。 由于推理时计算扩展的研究极为活跃,本文仅聚焦该方向。未来将有另一篇文章专门介绍训练时计算扩展在推理提升中的多种创新方法。
谷歌 Gemini 模型新增“推理调节器”功能,引发行业对AI“过度思考”问题的关注
据报道,谷歌DeepMind近日为其最新顶级Gemini模型推出了一项新功能:开发者可通过一个“拨盘”调节模型在响应过程中投入多少“思考”时间。该功能虽表面上旨在帮助开发者节省运行成本,但也间接承认了一个行业性问题——推理模型正成为AI领域的热门趋势,却也容易陷入“过度思考”的困境,从而导致不必要的计算资源浪费。 自2019年以来,增强AI模型能力的传统路径主要有两条:一是扩大训练数据量、增大模型规模,二是通过更优的反馈信号优化答案质量。然而,自2024年底开始,谷歌DeepMind及其他科技公司纷纷开始尝试第三种方法:推理能力的强化。 DeepMind首席研究科学家Jack Rae表示,团队一直在致力于“推动模型‘思考’能力的发展”。这一策略在今年初的DeepSeek-R1模型发布后快速走红。对AI公司而言,这种方法具有重要吸引力——只需训练现有模型以更务实的方式处理问题,即可增强模型能力,而无需从头打造新模型。 但与此同时,这种“思考能力”的增强也带来了实实在在的计算与经济成本。当前推理模型的排行榜显示,完成某些任务一次可能花费高达200美元。尽管成本高昂,但其优势在于能更好地处理诸如代码分析或多文档信息提取等复杂任务。 DeepMind技术主管Koray Kavukcuoglu指出,模型“在不同假设与思路上反复迭代的次数越多,就越有可能找到正确答案”。但这并非在所有任务中都适用。Gemini产品团队负责人Tulsee Doshi指出:“在简单任务中,模型思考的确远超所需。”她特指的是此次发布的Gemini Flash 2.5模型,该模型配备了可调整的推理滑块,允许开发者减少其“思考”量。 推理过度不仅提高了模型运行成本,也显著增加了AI的能源消耗与碳足迹。Hugging Face的工程师Nathan Habib研究了推理模型的快速扩散现象,他指出,当前业界对推理模型的使用已然泛滥。为了追求更聪明的AI,不少企业甚至在无需推理的场景中也强行“上锤”,即便根本没有“钉子”存在。 OpenAI在今年2月宣布,其新推出的模型将是最后一款非推理模型,进一步表明行业正在全面转向推理范式。Habib表示,虽然推理在某些任务中带来“不可否认”的性能提升,但在大多数普通用户使用AI的场景中,这些收益并不明显。 即使应用得当,推理机制也可能“崩溃”。Habib展示了一个推理模型在解答有机化学题时的失败案例:模型起初正常推理,但中途开始不断输出“Wait, but …”(等等,但是……)达数百次,最终耗时远超非推理模型。DeepMind模型评估人员Kate Olszewska也承认,谷歌模型有时会陷入“思维循环”。 因此,谷歌开发的“推理拨盘”旨在缓解这一问题。目前该功能仅面向开发者版本,允许他们设置模型在单个任务中可使用的计算预算。推理模式开启时,模型输出的成本约为非推理状态的六倍。 该功能的另一重要意义在于,当前尚不清楚哪些任务真正需要大量推理。DeepMind的Jack Rae坦言:“现在要明确界定哪些任务真正适合‘思考’,其实很难。” 尽管如此,一些任务已被明确归为适合高推理配置的范畴,例如代码生成(开发者可能会粘贴上百行代码请求帮助)与专家级研究报告撰写等。这些任务对推理能力要求较高,开发者可能愿意为更高质量输出承担更高成本。然而,谷歌仍需依赖开发者的反馈,确定中低推理等级在更多场景中是否“足够好”。 Habib认为,推理模型投资潮的兴起,正标志着AI研发范式的根本转变:“扩展规模的法则正在被推理逻辑取代。” AI企业如今不再一味追求更大的模型,而是寄望通过更长时间的“思考”来获得更优结果。据估计,过去几年中,AI公司在模型推理(即生成答案的实时调用)方面的开销已远超训练开销,而这一趋势在推理模型普及后将进一步加剧。推理环节也正成为AI碳排放的主要来源之一。 尽管许多模型使用“推理”或“思考”等具有人类意味的词语,Jack Rae也指出,其实这些术语的使用更多是为了便于理解。他表示:“这让我们能用一个简单的词描述复杂过程,同时人们也更容易理解其含义。”Kavukcuoglu补充称,谷歌并非试图模拟人类认知过程,而是专注于模型行为的功能性实现。 即使推理模型目前风头正劲,谷歌DeepMind也并非唯一参与者。DeepSeek在去年12月至今年1月发布结果后,其“开权重”策略震撼市场,甚至引发了近1万亿美元的股市波动。所谓“开权重”即公开模型的内部参数设置,使开发者可自行部署,而无需依赖谷歌或OpenAI的付费API访问。(需注意,“开源”则指包括训练数据在内的全面公开。) 面对DeepSeek等开权重模型的强势表现,为何开发者仍愿意选择谷歌的专有模型?Kavukcuoglu解释称,在代码、数学与金融等高精度场景中,模型需展现极强的准确性与逻辑处理能力,无论是开源还是专有,只要能胜任这些任务的模型,终将脱颖而出。 DeepMind坚信,推理能力将构建未来AI的核心。他总结道:“推理是通向智能的关键能力。一旦模型开始‘思考’,它的自主性就启动了。”
OpenAI 正在开发一款社交媒体平台
据《The Verge》援引知情人士消息,OpenAI 正在开发一款社交媒体平台,项目目前仍处于原型阶段。该平台计划整合 ChatGPT 等 AI 功能,例如图像生成,并将其嵌入社交内容流之中,以打造全新的互动体验。 虽然项目的最终形态尚未明确——尚不清楚会成为独立应用,还是将其纳入 ChatGPT 已有生态体系——但 OpenAI CEO Sam Altman 已开始就这一构想向外部征求反馈意见。据了解,ChatGPT 近期已成为全球下载量最高的应用程序,若新平台作为其扩展部分上线,将进一步巩固其用户粘性和生态闭环。 目前 OpenAI 尚未对外正式回应这一传闻。 若项目最终落地,OpenAI 将直接进入社交媒体战场,与 X(前 Twitter)、Meta 等科技巨头展开正面竞争,特别是在生成式 AI 与用户内容结合的关键领域。 行业深意:从AI工具到数据闭环 分析指出,OpenAI 试图打造社交平台,反映出一个清晰的行业趋势:AI 公司正加快构建属于自己的第一方数据渠道。与 Meta、X 等竞争者不同,OpenAI 目前主要依赖公开数据和第三方授权协议来训练模型,尚不拥有如同社交媒体那样海量、实时的用户生成内容。 相比之下,Meta 的 LLaMA 模型可直接调用 Facebook 和 Instagram 等平台的用户行为数据;而马斯克旗下的 Grok 模型则深度集成 X 平台实时内容。OpenAI 在这一层面上的“数据劣势”日益明显。 建立自有社交平台,将让 OpenAI 获得“训练数据直达通道”,不仅能够更及时地获取新鲜内容,还可有效降低对外部数据供应商的依赖,从而提升模型训练效率和响应时效。这种模式类似于 Google 通过搜索行为数据提升搜索引擎智能,或 Amazon 通过电商行为数据优化推荐系统的策略。 社交与AI产业正加速融合 OpenAI…
OpenAI 正在洽谈以约 30 亿美元收购 AI 编程助手公司 Windsurf
据《市场观察》2025 年 4 月 17 日报道,OpenAI 正在洽谈以约 30 亿美元收购 AI 编程助手公司 Windsurf,这将成为 OpenAI 迄今为止最大的一笔收购交易,也标志着该公司正式进军 AI 编程工具市场,与包括 Anysphere 在内的现有参与者展开直接竞争。 据悉,此前 OpenAI 曾试图收购 Anysphere,而后者目前正寻求以接近 100 亿美元估值融资。因未能成功达成收购协议,OpenAI 便将注意力转向 Windsurf。彭博社最早披露了这项转向及新收购意向。 Windsurf,前身为 Codeium,是一家发展迅速的 AI 编程助手公司。2025 年 2 月,TechCrunch 报道称,Windsurf 正在 Kleiner Perkins 领投下寻求以 28.5 亿美元估值进行新一轮融资。目前其年经常性收入已达 4000 万美元,且已从 General Catalyst 和 Greenoaks Capital 等机构累计筹得 2.43 亿美元融资。 与此同时,用户端也传出风声。近日,Windsurf 用户收到一封邮件,称平台即将发布公告,用户可选择以每月 10 美元的价格订阅其代码编辑器服务,这一举动被广泛视为收购传闻的侧面佐证。 此外,OpenAI…