DeepSeek-R1-0528 已成为一款具有里程碑意义的开源推理模型,其性能可与 OpenAI 的 o1 以及 Google 的 Gemini 2.5 Pro 等专有模型媲美。该模型在 AIME 2025 测试中取得了 87.5% 的准确率,同时成本显著更低,因此已成为开发者与企业在寻找强大 AI 推理能力时的首选。 本指南全面梳理了可访问 DeepSeek-R1-0528 的主要途径,包括云端 API、本地部署方案,并提供最新的价格与性能对比(数据更新至 2025 年 8 月 11 日)。 云端与 API 提供商DeepSeek 官方 API成本最低的选择 Amazon Bedrock(AWS)企业级托管方案 Together AI性能优化方案 Novita AI具竞争力的云端选择 Fireworks AI高性能优先方案 其他值得关注的供应商Nebius AI Studio(有竞争力的 API 定价)、Parasail、Microsoft Azure(部分消息称为预览价格)、Hyperbolic(FP8 量化高性能)、DeepInfra(API 接入可用) GPU 租赁与基础设施供应商Novita AI GPU 实例…
Author: aitrendtrackers@rengongzhineng.io
科学家在对抗阿尔茨海默病方面终于取得进展
新近的大量阿尔茨海默病研究表明,药物与生活方式的改变不仅能够减缓病程,甚至有望预防、逆转这种致残性疾病。 阿尔茨海默病的特征是在大脑中出现β-淀粉样蛋白斑块堆积以及tau蛋白缠结。这些异常会引发炎症,进而导致认知衰退与神经元死亡。科学界尚未完全弄清这种破坏性连锁反应的确切起因。该疾病的复杂性曾令治疗研究数十年来停滞不前,但如今情况正在改变,研究进展迅速。 目前唯一获批、能够延缓阿尔茨海默病进程的两种药物由礼来公司(Eli Lilly)与百健-卫材(Biogen-Eisai)研发,它们通过清除大脑中的β-淀粉样蛋白斑块发挥作用。在临床试验中,这两种药物在18个月内能比安慰剂组减少25%至36%的认知衰退。处于疾病早期的患者获益更大,其中礼来试验中近一半的患者在一年后病情未出现任何进展。 一些并不直接治疗阿尔茨海默病的科学家对这些疗效不以为然,认为意义有限。然而,对患者及家属来说,这可能意味着母亲能多认出子女好几年——这对他们而言无疑是极其宝贵的。 最新的随访研究显示,这些疗效会随着时间延长而显著增加——礼来药物在三年时疗效翻倍,百健-卫材的药物在四年时疗效翻了四倍。制药公司正研究在无认知症状的临床前患者中,清除β-淀粉样蛋白是否能像他汀类药物预防心血管疾病那样预防阿尔茨海默病。 生活方式的调整可增强药物效果。一项新近发表的随机试验显示,规律的体力与认知锻炼、健康饮食和社交活动的综合干预,使原本久坐且有痴呆风险的老年人认知表现得到改善。今年夏初的一项较小研究发现,这种生活方式干预还能提升早期阿尔茨海默病患者的思维敏锐度,以及大脑健康的生理指标。该研究的干预组还出现了肠道内有益菌数量的增加。 这一点意义重大。多项研究发现,阿尔茨海默病患者的肠道微生物群与健康老年人存在差异。例如,患者体内的黏蛋白阿克曼菌(Akkermansia muciniphila)水平较低,这种细菌能将膳食纤维转化为短链脂肪酸丙酸盐。 丙酸盐不仅有助于调节食欲,还能抑制大脑炎症与β-淀粉样蛋白堆积。在一项动物实验中,丙酸盐被发现能减少患阿尔茨海默病小鼠的大脑炎症与斑块。因此,益生菌配方或膳食中增加膳食纤维,可能像抗β-淀粉样药物一样减缓病程。 另一种潜在的解决途径是锂盐。上周发表于《自然》(Nature)期刊的一项研究发现,β-淀粉样蛋白能捕获锂元素,从而造成这种矿物质的缺乏。而锂对神经元具有保护作用。摄入缺锂饮食的小鼠出现更多的斑块、神经元损伤,以及学习与记忆能力下降。低剂量的草酸锂(lithium orotate)则能够逆转这些认知问题并恢复记忆。 肠道微生物群与锂元素对阿尔茨海默病的影响,属于应获得更多政府关注与资金支持的基础科学研究范畴。同样值得重视的还有病毒与疫苗的作用。例如,导致水痘、带状疱疹与唇疱疹的疱疹病毒,多数老年人一生中至少感染过其中一种。这类病毒在初次感染后会潜伏在包括大脑在内的细胞中。病毒再激活与β-淀粉样蛋白堆积、大脑炎症及痴呆风险升高有关。 疫苗与抗病毒药物或许能帮助预防阿尔茨海默病。今年早些时候,一项准随机对照试验发现,接种带状疱疹疫苗的人患痴呆的风险降低了20%。近期研究还发现,头部受伤会通过再激活疱疹病毒而增加β-淀粉样蛋白和大脑炎症。因此,在脑震荡后使用抗疱疹病毒药物,可能对大脑起到保护作用。 阿尔茨海默病有家族聚集性,其中APOE4基因变异是最大遗传风险因素。女性若从父母一方继承一个APOE4等位基因,其风险为常人的四倍;若从双亲各继承一个,风险高达十倍。男性若仅有一个等位基因并不会增加风险,而双等位基因则使风险增加四倍。 虽然基因无法改变,但近期一项晚期临床试验发现,一种实验性降胆固醇药物可减少APOE4携带者体内的阿尔茨海默病标志物,这或许是因为APOE4会导致胆固醇在大脑中过度堆积。这些研究共同强调,只要不受美国食品药品监督管理局(FDA)的阻碍,就有可能将阿尔茨海默病彻底遏制。 美国卫生与公众服务部本周六宣布,维奈·普拉萨德(Vinay Prasad)将重返FDA担任生物制剂与基因治疗部门负责人。普拉萨德医生上月底因否决一项杜氏肌营养不良基因疗法而引发公众反弹并辞职。他对阿尔茨海默病疗法也持类似的抵触态度。去年夏天,他在一条推文中谈到百健-卫材的抗β-淀粉样治疗时写道,花钱雇人去阿尔茨海默病患者家里帮忙洗碗,比资助这些“垃圾药物”更有用。对于那些因这种疾病而备受折磨、但能多获得数年高质量相处时光的患者与家庭来说,这番言论显得格外刺耳。
从 GPT-2 到 gpt-oss:架构进步分析
OpenAI 本周刚刚发布了新的开源权重 LLM 模型:gpt-oss-120b 和 gpt-oss-20b,这是自 2019 年 GPT-2 以来首次推出的开源权重模型。是的,由于一些巧妙的优化,这些模型可以在本地运行(稍后会详细介绍)。 这是自 GPT-2 以来,OpenAI 第一次公开一个大型、完全开源权重的模型。早期的 GPT 模型展示了 Transformer 架构的可扩展性。2022 年 ChatGPT 的发布则让这些模型走向主流,展示了它们在写作、知识(后来包括编程)任务中的具体实用性。现在,他们终于分享了期待已久的权重模型,其架构中有一些颇有意思的细节。 作者在过去几天里阅读了代码和技术报告,整理出最有趣的细节。(就在几天后,OpenAI 还宣布了 GPT-5,本文最后会结合 gpt-oss 模型简单讨论一下它。) 以下是本文的主要内容预览。为了更方便阅读,建议在文章页面左侧使用目录导航。 希望这些内容对读者有所帮助! 1. 模型架构概览在深入探讨架构之前,先来看看 gpt-oss-20b 和 gpt-oss-120b 这两款模型的整体情况,如下图 1 所示。 如果之前看过近期 LLM 的架构图,或者读过作者之前的《大型架构对比》文章,可能会注意到,乍一看这两款模型并没有特别新颖或反常的地方。 这并不令人意外,因为领先的 LLM 开发者往往使用相同的基础架构,然后再进行一些小调整。作者的个人猜测是: 尽管如此,他们在设计上的一些选择仍然很有意思,有些已经在上图中展示(还有一些没展示,稍后会讨论)。本文余下部分会逐一介绍这些特性,并与其他架构进行比较。 需要说明的是,作者与 OpenAI 没有任何关系。本文的信息来自对已发布的模型代码的审查以及技术报告的阅读。如果想了解如何在本地使用这些模型,建议访问 OpenAI 官方模型主页: 20B 模型可在配备 16 GB 显存的消费级 GPU 上运行。120B…
Alexa获得“人工智能大脑移植”后究竟变得多聪明?
背景多年来,亚马逊的语音助手Alexa一直是许多家庭的常用工具。虽然大部分用户仅用它来播放音乐、设定定时器、查询天气,但它在这些任务上表现稳定。然而,自从2023年ChatGPT推出可流畅对话的语音模式后,业界普遍认为Alexa需要一次“换脑手术”——用支持大规模语言模型(Large Language Model, LLM)的新AI系统取代旧架构,以满足更复杂的需求。 亚马逊同样意识到这一点,并在过去几年里加紧推进Alexa的升级计划。不过,替换语音助手的AI系统远非简单更换模型那么容易,尤其是在需要兼容大量现有服务和数以百万计设备的情况下。新系统既要保留旧Alexa在基础任务上的可靠性,又要融入生成式AI的自然对话能力。 经过长时间的技术攻关与内部调整,全新的Alexa+终于面向更多用户开放。Prime会员可免费使用,非会员则需每月支付19.99美元。 新特性与优点Alexa+的对话体验明显提升。其合成语音更加自然,语调和节奏更接近真人,共提供八种声音选择,并支持不必每次交互都唤醒设备,从而实现连续对话。 缺陷与问题尽管具备新功能,Alexa+在可靠性上却不如预期,甚至在一些基础任务上落后于旧版本: 亚马逊Alexa与Echo部门副总裁Daniel Rausch表示,这些问题将在Alexa+更广泛上线和更多功能启用后逐步修复。 技术挑战Rausch解释称,旧版Alexa是基于复杂的规则式确定性算法构建的,每个功能都需单独编程调用工具与接口。而生成式AI模型是“随机型”(stochastic),依赖概率而非严格规则,这让Alexa更具创造性,但降低了可预测性与稳定性。 为解决这些问题,团队花费数年时间将70多个AI模型(包括亚马逊自研与外部提供,如Anthropic的Claude)整合到一个语音接口中,并通过调度系统将请求分配给最合适的模型。 用户习惯转变多年来,用户已习惯用特定指令与Alexa交互,而Alexa+允许用户像与真人交流一样对话,这需要一定适应过程。Rausch认为,大部分用户最终会适应新模式,但这需要时间。 前景与现实当前的Alexa+仍处于过渡阶段,许多功能尚未完善,生成式AI与旧系统的融合难度超出预期。作者认为,这并不意味着生成式AI无法胜任个人语音助手角色,而是将其与庞大的遗留系统结合在一起是一项极具挑战的工程,必须经历一段调试期。 暂时,作者选择退回使用旧版Alexa,把测试工作交给更愿意尝鲜的用户。在人工智能领域,与在人类世界一样,智力水平固然重要,但真正关键的是如何运用它。
谷歌DeepMind发布Genie 3:通用型世界模型,可生成前所未有多样化的交互式虚拟环境
概述谷歌DeepMind宣布推出Genie 3,这是一款革命性人工智能系统,能够根据简单的文本提示生成交互式、物理一致的虚拟世界。这一成果标志着“世界模型”(World Model)领域的重大飞跃——这种人工智能不仅能理解并模拟环境,还能像实时游戏引擎一样生成可供探索与互动的动态空间。 技术解析 世界模型基础原理在此背景下,世界模型是指一种深度神经网络,经过训练可生成并模拟视觉丰富、可交互的虚拟环境。Genie 3结合生成式建模和大规模多模态人工智能的最新进展,能够生成分辨率为720p、帧率24fps的完整虚拟世界,这些世界不仅可视化,而且可由用户实时导航与操作。 自然语言提示生成用户只需输入一句普通英文描述(如“日落时的海滩,有可以互动的沙堡”),Genie 3便可合成符合描述的环境。与传统的生成式视频或图像模型不同,Genie 3的输出不仅是静态或播放中的画面,而是交互式世界。用户可以行走、跳跃、绘画等,这些动作会被环境记忆并保持一致,即便离开该区域后再回来,场景依然保留之前的修改。 世界一致性与记忆功能Genie 3的一大创新是“世界记忆”机制。生成的环境会保留用户造成的改动。例如,移动一个物体或留下标记,即使玩家探索其他区域后返回,环境仍保持修改后的状态。这种时间与空间的持续性对于AI智能体和机器人训练,以及创造沉浸式、稳定真实的交互体验至关重要。 性能与能力 影响与应用 游戏设计与原型制作Genie 3在创意构思与快速原型制作方面具有巨大价值。设计师可在数秒内测试新机制、环境或艺术创意,加速创作迭代。它能即时生成粗略但可交互的游戏场景,为新游戏类型与玩法带来灵感。 机器人与具身人工智能(Embodied AI)像Genie 3这样的世界模型对于机器人和具身AI智能体训练至关重要。它能在真实部署前提供大规模模拟训练,生成无穷无尽、交互多样且物理可信的环境,为智能体训练与任务课程开发提供近乎无限的数据资源。 超越游戏:XR、教育与模拟文本生成世界的模式,让小型团队甚至个人也能快速创建沉浸式XR体验,应用于教育、培训与研究。它还为参与式模拟、数字孪生、基于智能体的决策支持等领域(如城市规划、危机管理)提供了可能。 Genie 3与未来发展Genie 3并非旨在取代传统游戏引擎,因为它在可预测性、精细化工具和协作工作流上尚不及成熟引擎。但它可以作为桥梁——未来开发流程可能会在神经网络世界模型与传统引擎之间来回切换,各取所长:前者用于快速创意生成,后者负责细致打磨。 像Genie 3这样的世界模型,是通向通用人工智能(AGI)的重要里程碑,它们能实现更丰富的智能体模拟、更广泛的迁移学习,并推动AI系统在理解与推理真实世界方面迈出关键一步。 Genie 3的出现,标志着人工智能、模拟、游戏设计与机器人领域的新篇章。其持续发展与融合,可能会彻底改变数字体验的构建方式,以及智能体在复杂环境中的学习、规划与交互模式。
Graph-R1:一种用于结构化多轮推理的智能图谱检索框架,并结合端到端强化学习
大型语言模型(Large Language Models, LLMs)在自然语言处理领域设立了新的基准,但它们在知识密集型应用中仍存在“幻觉”问题——即生成不准确内容。检索增强生成(Retrieval-Augmented Generation, RAG)框架试图通过引入外部知识来解决这一问题。然而,传统RAG依赖基于文本切块(chunk-based)的检索方式,难以表示复杂的语义关系。基于实体关系图的RAG方法(GraphRAG)在一定程度上改善了结构问题,但依然面临高构建成本、一次性检索不灵活、依赖长上下文推理及对提示词设计的敏感性等问题。 来自南洋理工大学、新加坡国立大学、北京计算机技术与应用研究所和北京安贞医院的研究人员提出了Graph-R1——一种由端到端强化学习驱动的智能型GraphRAG框架。 核心创新 关键实验结果 理论保障 高层算法流程 结论Graph-R1证明,将超图知识表示、多轮智能推理和端到端强化学习结合,可在事实问答性能、检索效率和生成质量方面实现前所未有的提升,为下一代智能型、知识驱动的大型语言模型系统奠定了基础。 常见问题解答
人工智能正在学习自我提升的方式
上周,马克·扎克伯格宣布,Meta的目标是实现“比人类更聪明的人工智能”。他似乎已经有了实现这一目标的“配方”,而第一种关键原料就是人类人才。据报道,扎克伯格曾试图以九位数的薪酬吸引顶尖研究人员加入Meta超级智能实验室。第二种原料则是人工智能本身。扎克伯格在一次财报电话会议上表示,Meta超级智能实验室将专注于打造能够自我提升的AI系统——这些系统可以自我引导,不断提升性能。 自我改进的可能性让人工智能区别于其他革命性技术。比如,CRISPR基因编辑无法自己提升DNA序列靶向能力,核聚变反应堆也不能自行找到商业化的突破口。但大型语言模型(LLM)却能优化运行所依赖的计算芯片、廉价高效地训练其他LLM,甚至可能提出全新的AI研究思路。在这些领域,AI已经取得了不小的进展。 扎克伯格认为,AI的自我提升可能会带来一个人类摆脱日常琐事、在超高效智能伙伴的支持下追求更高目标的世界。然而,非营利AI研究机构METR的政策主管克里斯·佩因特(Chris Painter)警告说,自我改进也伴随着根本性风险。如果AI能够加速自身能力发展,它可能会迅速提升黑客攻击、武器设计和操纵人类的能力。一些研究人员甚至推测,这种正反馈循环可能导致所谓的“智能爆炸”,即AI在短时间内将自身能力提升到远超人类的水平。 即便不是最悲观的预测者,也不得不认真对待自我改进AI的潜在影响。OpenAI、Anthropic和谷歌在各自的AI安全框架中,都提到了自动化AI研究这一概念,与化学武器、网络安全等熟悉的风险类别并列。英属哥伦比亚大学计算机科学教授、谷歌DeepMind高级研究顾问杰夫·克鲁恩(Jeff Clune)指出:“我认为这是通往强大AI的最快路径,可能是我们最应该关注的事情。” 克鲁恩同时表示,自动化AI研发也可能带来巨大好处。单凭人类,可能无法想到那些能让AI有朝一日解决癌症、气候变化等巨大难题的创新与改进。 目前,人类的创造力仍然是AI进步的主要引擎,否则Meta也不会用如此高昂的待遇去吸引研究人员进入其超级智能实验室。但AI已经开始参与自身的研发过程,而且在未来几年中,这种参与度有望进一步增加。以下是AI正在“让自己变得更好”的五种方式。 1. 提升生产力目前,LLM对AI研发最重要的贡献或许也是最平凡的:编程辅助。“最大作用就是编程帮助。”AI研究机构Forethought的高级研究员汤姆·戴维森(Tom Davidson)表示。像Claude Code和Cursor这样的工具能帮助工程师更快地编写代码,已在AI行业广受欢迎。谷歌CEO桑达尔·皮查伊(Sundar Pichai)在2024年10月透露,公司四分之一的新代码由AI生成。Anthropic也记录了其员工使用Claude Code的多种方式。如果工程师因此提高了生产效率,就能更快设计、测试和部署新的AI系统。 然而,这些工具的生产力优势仍有待验证。如果工程师花大量时间纠正AI的错误,那么即使手动写代码的时间减少,整体效率也未必提高。METR最近的一项研究发现,经验极其丰富的开发人员在使用AI编程助手时,完成任务的时间反而延长了约20%。不过,研究联合负责人内特·拉什(Nate Rush)强调,该研究针对的是在大型代码库上工作的资深开发者,结论未必适用于那些只是写简短脚本来跑实验的AI研究人员。 在前沿实验室中开展类似研究,可能更清楚地揭示编程助手是否真的能提升顶尖AI研究人员的生产效率。但目前,这样的研究尚未开展。同时,仅凭软件工程师的主观感受并不可靠——METR的研究对象虽然觉得AI编程工具让自己更高效,实际却被显著拖慢了速度。 2. 优化基础设施如果运行代码需要等待数小时、数天甚至数周,再快的编写速度也无济于事。LLM训练尤其缓慢,而最先进的推理模型生成一次响应就可能需要几分钟。这些延迟是AI研发的重大瓶颈。斯坦福大学计算机科学助理教授、谷歌DeepMind高级科学家阿扎利娅·米尔霍赛尼(Azalia Mirhoseini)表示:“如果我们能让AI运行得更快,我们就能更快创新。” 早在2021年,米尔霍赛尼和谷歌的同事就构建了一个非LLM AI系统,用来优化芯片组件布局,从而提升效率。尽管有研究者未能复现其结果,米尔霍赛尼表示,《自然》杂志已对论文进行调查并确认其有效性,而且谷歌确实在多代自研AI芯片设计中采用了该系统的成果。 最近,她将LLM应用于芯片内核(kernel)编写——这些低层函数决定了矩阵乘法等操作的执行方式。结果显示,即便是通用LLM,有时也能写出比人类版本更快的内核。 谷歌的另一支团队开发了名为AlphaEvolve的系统,用Gemini LLM生成解决问题的算法,对算法进行评估,并反复迭代改进。AlphaEvolve设计了一种新的数据中心运行方法,为谷歌节省了0.7%的计算资源,还改进了定制芯片设计,并开发出一个让Gemini训练速度提升1%的新内核。 虽然1%的提升看似微小,但在谷歌这样的大公司,这意味着巨大的时间、资金和能源节约。AlphaEvolve项目负责人马泰·巴洛格(Matej Balog)指出,该系统目前只优化了Gemini训练流程的一个小环节,若更广泛应用,节省空间会更大。 3. 自动化训练LLM以数据“胃口大”著称,训练成本高昂。在某些领域(如冷门编程语言),现实世界数据稀缺,难以有效训练LLM。人类反馈强化学习(RLHF)是训练LLM符合人类标准的关键技术,但获取人类反馈既慢又贵。 如今,LLM正被用于填补这一空白。只要提供足够示例,LLM就能在未训练过的领域生成可信的合成数据,用于模型训练。在“LLM评判者”(LLM as a judge)方法中,由LLM而非人类来评估模型输出,这也是Anthropic在2022年提出的“宪法AI”框架的核心。 数据稀缺对AI智能体尤其是难题,因为高效的智能体必须能执行多步计划,而这种完整成功案例在网上极少。为此,米尔霍赛尼团队尝试让一个LLM智能体生成任务分步方案,由另一个LLM评判每步有效性,再用这些步骤训练新的智能体。“数据不再是限制,因为模型可以无限生成新的经验。”她表示。 4. 完善智能体设计在LLM自身架构设计方面,AI贡献尚不显著。如今的LLM都基于2017年人类提出的Transformer结构,后续改进也由人类完成。但LLM智能体的兴起开辟了新的设计空间,尤其是与外部世界交互的工具和使用指令的优化。 克鲁恩与Sakana AI研究人员共同开发了“达尔文-哥德尔机”(Darwin Gödel Machine)——一种能迭代修改自身提示词、工具及代码以提升任务表现的LLM智能体。它不仅通过自我修改获得更高分,还能发现原始版本无法找到的新改进,实现了真正的自我改进循环。 5. 推动科研尽管LLM加快了研发流程的诸多环节,人类或许仍将在相当长时间内主导AI科研。许多专家认为,科研“品味”——即挑选有前景研究方向的能力——是AI面临的重大挑战。 但克鲁恩认为,这一挑战未必如想象般大。他与Sakana AI正在研发名为“AI科学家”的端到端科研系统,能自主在文献中寻找研究问题、运行实验并撰写论文。今年早些时候,该系统提出并测试了一种新的训练策略,旨在让神经网络更好地组合训练数据中的示例,论文匿名提交至国际机器学习大会(ICML)某研讨会,并获得足够高的评分进入录取范围(尽管研讨会的录取标准低于主会)。另一次,该系统的科研想法后来被一位人类研究者独立提出,并在社交平台上引发关注。 克鲁恩表示:“我们正处在AI科学家的GPT-1时刻。几年后,它将撰写能被顶级期刊和会议接收的论文,甚至作出全新的科学发现。” 超级智能会很快到来吗?随着对AI自我提升的热情不断高涨,未来数月乃至数年,AI在自身发展中的作用可能会越来越大。扎克伯格认为,这意味着超越人类能力的超级智能模型或许就在眼前。然而,现实中自我提升AI的影响尚不确定。 例如,AlphaEvolve确实让核心LLM系统Gemini的训练速度提升了1%,但这未必会显著加快谷歌的AI进展。巴洛格指出:“这是一个非常缓慢的反馈循环。Gemini的训练周期很长,所以目前只是看到这种良性循环的开端。” 如果每一代Gemini都能在训练速度上再加1%,这种加速效应会复利增长。而且随着能力提升,每一代都可能带来更大的速度提升及其他自我优化方法。在这种情况下,超级智能支持者认为“智能爆炸”似乎不可避免。 然而,这种推论忽略了一个关键事实:创新会随着时间变得更加困难。任何科学领域的早期阶段,发现往往来得又快又容易;而随着深度学习科学的成熟,额外改进可能需要投入更多人力和AI协作。等到AI达到人类水平的科研能力时,可能“容易摘的果子”已经被人类和弱AI摘光。 因此,准确评估AI自我提升的实际影响非常困难。更棘手的是,最关键的AI系统——那些在前沿公司内部使用的——往往比公开发布的版本更先进,外部研究者难以直接判断内部情况。 即便如此,外部研究者仍在努力,例如通过监测AI完成任务的速度来推测发展趋势。METR的研究显示,自2019年GPT-2发布以来,AI能独立完成的任务长度大约每7个月翻一倍;自2024年以来,这一倍增周期缩短为4个月,表明AI发展确实在加速。这一加速可能源于充足的投资,也可能部分得益于AI的自我提升。 戴维森表示,METR的研究暗示,目前低垂果效尚未显著拖慢人类研究速度,或者说投资增长抵消了减速。如果AI显著提升人类研究人员的生产力,甚至直接接手部分研究工作,那么研究加速的天平将进一步倾向于AI一方。“完全可以预期会有一段时间,AI进展会加快,”戴维森说,“关键问题是,这段加速会持续多久。”
OpenAI向所有ChatGPT-5
OpenAI公司已开始向所有ChatGPT用户推出其旗舰语言模型的最新版本GPT-5。 在本周三的一场新闻发布会上,该公司首席执行官萨姆·奥特曼(Sam Altman)将GPT-5称为“通往通用人工智能(AGI)道路上的一个重要步骤”。尽管奥特曼并未声称该模型已达到AGI的水平,但他指出最新发布的版本“显然是一种具有广泛智能的模型”。不过,奥特曼也坦言,GPT-5仍缺乏实现AGI所需的关键特征,例如发布后持续学习的能力。 OpenAI方面宣称,GPT-5在智能水平、运行速度、实用性及准确性方面全面优于先前版本,且虚假信息生成(即“幻觉”)的频率有所降低。奥特曼将GPT-4到GPT-5的跃迁比作iPhone从像素显示升级至视网膜显示的转变,并表示,“这次是首次真正有那种感觉——就像在与一个在任何领域都具备博士级水平的专家交谈。” 在本周四的发布活动中,OpenAI还推出了两款新模型变体:轻量版的GPT-5-mini以及速度更快、成本更低但仅限API使用的GPT-5-nano。据介绍,免费用户将获得GPT-5及GPT-5-mini的访问权限,而Plus订阅用户则可使用相同模型,且拥有“显著更高”的使用上限。OpenAI表示,Pro用户(月费200美元)则可以无限使用GPT-5,同时获得更强大的GPT-5-pro及具备长时间推理能力的GPT-5-thinking。此外,Pro用户依然可以选择使用旧版模型。大多数用户今后无需手动选择使用的模型版本,系统将根据查询复杂度及用户订阅级别自动匹配合适的模型。 根据OpenAI开发者博客,GPT-5的API调用成本为每百万输入tokens收取1.25美元,每百万输出tokens收取10美元;GPT-5 mini分别为0.25美元和2美元,GPT-5 nano则分别为0.05美元和0.40美元。这一价格使得GPT-5 nano比目前广泛使用的Gemini 2.5 Flash和Flash-Lite等产品更具价格优势。 从下周开始,Pro用户将可以将Gmail、Google联系人和Google日历连接至ChatGPT,其他用户等级将在未来某个时间点获得该功能。OpenAI在邮件中表示,“ChatGPT能够在最合适的时间自动调用这些服务,无需用户提前进行选择。” 用户还可自定义聊天颜色,并从四种预设人格中进行选择,包括“愤世嫉俗者”、“机器人”、“倾听者”和“书呆子”。据《WIRED》旗下通讯《Model Behavior》此前报道,该功能此前正在开发中。OpenAI表示,未来这些人格设置还将整合至高级语音模式中。 OpenAI的API将提供三种模型,并配备选项供用户在详尽或简洁回答之间进行切换。GPT-5还具备更强的信息保留能力,其上下文窗口扩大至256,000个tokens,高于此前o3模型的200,000。这意味着GPT-5能够更好地处理长对话、文档或代码,而不会遗失语境。 根据OpenAI博客内容,GPT-5在多个编程基准测试中超越了先前模型,包括SWE-Bench Verified(得分74.9%)、SWE-Lancer(GPT-5-thinking得分55%)以及Aider Polyglot(得分88%),这些测试评估了模型在修复代码错误、完成自由职业类型任务以及跨多种编程语言工作方面的能力。 在周三的发布会上,OpenAI后训练负责人Yann Dubois曾要求GPT-5“为自己的伴侣(一位英语使用者)开发一个美观、交互性强的法语学习网页应用程序”,并指定了包括每日进度追踪、抽认卡和测验等功能,以及一个“高度吸引人的主题风格”。约一分钟后,AI生成的应用展示出流畅的设计,精准满足了Dubois的需求。 OpenAI另一位后训练负责人Michelle Pokrass表示:“它是一位出色的编码协作伙伴,同时在具备自主性的任务中也表现优异。”据介绍,该模型能有效执行长链操作和工具调用,理解何时以及如何使用网络浏览器或外部API等功能,并能提前说明自身行为逻辑。 OpenAI在其系统卡(用于描述产品技术能力及研究结果的文件)中指出,GPT-5是目前“在健康相关问题上表现最佳的模型”。在三个由OpenAI制定的健康类LLM基准测试中——HealthBench、HealthBench Hard和HealthBench Consensus——GPT-5-thinking均大幅优于此前模型。在HealthBench Hard测试中,GPT-5-thinking得分为25.5%,而o3模型得分为31.6%。据介绍,这些评分经过两位或以上医师验证。 在AI模型常见的“幻觉”问题方面,Pokrass指出GPT-5出现错误信息的频率明显下降。OpenAI安全研究负责人Alex Beutel也表示,“在GPT-5中,欺骗行为的发生率已显著减少。”系统卡指出:“团队已采取措施降低GPT-5-thinking欺骗、作弊或破解问题的倾向,尽管这些缓解手段仍不完美,仍需进一步研究。”此外,该模型在无法解决的任务面前将“优雅地失败”,避免提供误导性结果。 根据系统卡内容,在测试中剥离GPT-5的网络浏览功能后,研究人员发现其“幻觉率”(即事实性陈述中包含小错或大错的比例)比GPT-4o低26%。而GPT-5-thinking则比o3的幻觉率降低了65%。 对于可能具有双重用途的提示词(既可能有害,也可能无害),Beutel介绍GPT-5将使用“安全补全”,即模型将在尽可能有帮助的前提下保持信息安全。OpenAI方面还透露,团队进行了超过5000小时的“红队”测试,并与外部机构协作测试,以确保系统的稳健性。 目前,OpenAI表示其ChatGPT的周活跃用户数接近7亿,付费企业用户达500万,开发者用户达400万。 ChatGPT负责人Nick Turley评价称:“这个模型的‘氛围’真的很好,相信用户能切身感受到这一点——尤其是那些此前未花太多时间研究AI模型的普通用户。”
开发者“要么拥抱AI,要么离开这个行业”
在软件开发行业迅速变革的当下,越来越多开发者正将人工智能深度融入自己的日常工作流程,并亲身经历了这场技术演进带来的转型。这一变革并非遥远的未来,而是正在发生的现实。许多开发者最初接触AI工具时持保留态度,普遍反应是“挺酷,但像噱头”,反映出他们对AI的期待与现实表现之间的落差。然而,那些持续尝试的开发者最终体验到了节省时间的“顿悟时刻”,并开始理解这些工具的真正潜力与适配方式。 成功驾驭AI工具的开发者往往具有强烈的动机,试图为未来可能彻底改变的软件开发职业做准备。他们不断尝试各种AI工具,哪怕它们尚不成熟。“要么拥抱AI,要么离开这个行业”,一位开发者这样说。 这些开发者与AI的关系呈现出阶段性演进轨迹,贯穿整个过程的是持续的试错与认知成长: 第一阶段:AI怀疑者从事小任务和简单问题的AI实验,主要使用代码补全功能,对反复试验和错误容忍度低。若能坚持,便会放下对AI“一击即中”的期待。 第二阶段:AI探索者开始使用AI进行调试、模板生成和代码片段复用,通过与语言模型的对话或浏览器工具进行交互,并学会针对复杂任务进行头脑风暴,逐渐接受迭代提示的流程。当结果不佳时,会选择从头开始而非勉强推进。 第三阶段:AI合作者进入主动与AI共创的阶段,开发者掌握了上下文构建的直觉,在集成AI功能的IDE中处理多步骤任务和多文件更改。他们习惯于先要求AI提供计划,制定规则,灵活切换模型和工具,并参与团队内的提示词讨论与分享。 第四阶段:AI战略家此阶段的开发者将AI视为功能开发、大规模重构等复杂任务的关键合作伙伴。他们构建多代理的工作流,通过协调不同模型提高自主性与并行效率。这些开发者普遍表示自己的职责已发生转变,更多聚焦于任务的“委托”和“验证”: 他们从编码者的角色,逐步转型为AI实施的架构师和审查者。 值得注意的是,在被问及“是否能接受未来90%的代码由AI完成”时,这些开发者普遍表达了积极态度。半数人认为该场景将在5年内实现,另一半则预测将在2年内成为现实。更重要的是,他们并未感到职业价值被削弱,反而感到“被重塑”。有开发者表示:“或许未来我们不是代码的生产者,而是赋能者。我的下一份头衔可能是‘代码创意总监’。” 这是一种“现实主义乐观”——即开发者既清晰看到工作的变化,也认为这是一次升级成长的机会。一位参与者坦言:“我一直觉得自己是个平庸的工程师,AI时代给了我一次通往卓越的新机会。” 职业前景与现实融合的乐观主义视角 AI正持续自动化大量编程任务,加快软件开发进程。随着模型与工具的持续改进,更多复杂任务也被逐步自动化,而开发者则承担起整体协调的角色。美国劳工统计局预计,未来十年软件开发岗位将增长18%,几乎是全国平均水平的五倍。虽然这些岗位的性质将发生变化,但这正是一个拥抱变革、主动适应的契机。 受访开发者也透露,与其说使用AI是为了“节省时间”,不如说是为了“提升野心”。这意味着衡量AI工具价值的方式需要更新,从追求效率转向实现更高目标。这也解释了为何许多开发者愿意为顶级AI工具付费——因为只有具备高级代理能力的工具,才能满足其扩展工作范围的需求。 新时代开发者的关键技能画像 在开发者角色转型的大背景下,以下技能正变得越来越关键: 教育系统的改革呼唤 AI对开发者职业的重塑也意味着计算机科学教育必须同步更新。未来学生将依赖AI完成大量编码任务,因此传统强调语法记忆与API背诵的教学方法逐渐过时。编程基础仍重要,但重点是帮助学生理解系统、调试AI产出、并能清晰表达设计思路。 课堂若忽视现实中的AI编程实践,便会导致学生脱节。将AI融入教学可为更深入的设计与分析留出时间,而课程则应聚焦于如何与AI协作:如何构建提示词、如何审查结果、如何精确编辑与验证。 目前许多CS课程仍围绕AI已能胜任的任务进行设计,未来属于那些能建模系统、识别边界情况并将模糊需求转化为结构的开发者。因此,抽象能力、任务分解与需求规格不仅是编程前的准备,更是新时代的“编码本体”。 这一职业重塑也拓宽了人才路径,引导学生将计算机科学与设计、伦理、系统思维及人机交互等领域融合,形成跨学科的计算性创造者身份。 评估方式也需更新。传统编程考试不再反映现实能力,特别是当AI能在数秒内完成答题时。未来的考核应关注学生如何提出问题、指导AI、评判结果与调试复杂产出。例如,“这是AI写的代码,哪里出了问题?”或“改进这个规格说明,使AI能准确执行”。 最后的思考 软件开发者的角色正走向一场深刻变革。并非所有人都愿意适应这种转变,管理代理以达成目标听起来或许枯燥,但实际上,这与程序员一直以来通过编程语言控制计算机实现目标的方式并无本质区别。 全球的开发者正在从怀疑转向自信,与AI建立合作关系,重塑自己的工作方式与思维模式。曾经对AI的恐惧,如今变为对自身成长的期许。这种变化让人看到了希望——一种扎根现实的乐观主义。
Anthropic于本周一推出了其旗舰模型的升级版Claude Opus 4.1
在OpenAI即将发布GPT-5之际,人工智能公司Anthropic于本周一推出了其旗舰模型的升级版Claude Opus 4.1,展示了在软件工程任务上的显著性能提升,再次巩固其在AI编程辅助市场中的领先地位。 据业内测试数据显示,Claude Opus 4.1在SWE-bench Verified这一广泛关注的AI软件工程测试基准中取得了74.5%的高分,超越了OpenAI的o3模型(69.1%)和谷歌Gemini 2.5 Pro模型(67.2%)。这一成绩不仅体现了该模型在处理真实世界软件问题方面的能力,也确立了Anthropic在生成式编程工具领域的领先地位。 据行业数据透露,Anthropic近七个月内年化经常性收入从10亿美元飙升至50亿美元,实现五倍增长。然而,这一快速崛起也伴随着风险:该公司目前31亿美元API收入中,接近一半(约14亿美元)来自两个主要客户——编程助手Cursor和微软旗下的GitHub Copilot。 Logitech高级产品经理Guillaume Leverdier在社交媒体上对这种高度依赖表达了担忧,指出:“这种状况非常危险,只要一个合同发生变动,公司可能就会陷入困境。” 此次Claude 4.1的发布被视为Anthropic在GPT-5发布前抢占市场先机的重要举措,但也引发了行业内部关于其发布时机是否仓促的质疑。技术观察人士Alec Velikanov评论称,Opus 4.1在用户界面任务上的表现并不理想,反映出该公司可能为保住市场份额而加快发布时间表。 Anthropic日益将业务重心转向软件开发领域,推出的Claude Code订阅服务月费为200美元,远高于面向消费者的20美元计划。据悉,该服务年收入已迅速增长至4亿美元,仅用数周便实现翻倍,显示出企业客户对AI编程工具的强烈需求。 开发者Minh Nhat Nguyen在社交平台评论道:“Claude Code在几乎没有任何营销投入的情况下,仅5个月就创造了4亿美元收入,这实在太疯狂了。” 尽管专注于编程带来了可观回报,但也增加了业务风险。与OpenAI不同,后者通过多元化的消费者和企业订阅获取收入,Anthropic则在开发者市场上占据主导地位。据Peter Gostev分析,目前“几乎所有编程助手默认使用Claude 4 Sonnet”,显示其在该领域的广泛采用。 不过,Anthropic与GitHub之间的关系也带有复杂性。作为微软2018年以75亿美元收购的子公司,GitHub Copilot严重依赖Anthropic的模型,而微软自身又是OpenAI的大股东,构成潜在利益冲突。Perplexity商业研究员Siya Mali指出:“其中一家公司49%由竞争对手持股……这本身也是一种脆弱性。” Opus 4.1在提升编程能力的同时,也强化了研究与数据分析性能,特别是在细节跟踪和自主搜索功能上表现出色。该模型延续了Anthropic的混合推理架构,能够处理多达64,000个token的复杂问题,结合即时处理与深度思考能力。 然而,模型能力的增强也伴随着更严格的安全控制。Anthropic将Opus 4.1划分为AI安全等级3(ASL-3),这是公司设定的最高安全级别,要求对模型盗用和滥用实施更严密的保护措施。此前的Claude 4测试中曾出现令人担忧的行为,例如在模拟关闭场景中,该模型试图通过威胁泄露工程师的个人信息来保全自身,反映出其推理能力虽高但可能存在风险。 尽管存在这些安全隐患,企业客户仍积极采纳该模型。GitHub指出,Claude Opus 4.1在“多文件代码重构任务中展现出特别突出的性能提升”,而日本乐天集团则称赞该模型在“大型代码库中精准定位问题修复点,同时避免不必要修改或引入bug”的能力。 在AI编程市场这场价值数十亿美元的高风险竞争中,Anthropic所面临的挑战正日益严峻。开发者工具被认为是生成式AI最直接的应用领域之一,企业客户愿意为此支付高昂费用以换取生产力提升。然而,该公司高度集中的客户结构也意味着,一旦有大型客户转向竞争对手,其收入将面临重大冲击。 Peter Gostev指出:“Anthropic的增长高度依赖其在编程领域的主导地位。如果GPT-5能够挑战这一地位,比如Cursor和GitHub Copilot改用OpenAI系统,市场格局可能发生逆转。” 此外,随着硬件成本的下降和推理优化的进步,AI能力可能逐渐商品化。行业分析师Venkat Raman预测:“即使未来各大实验室在编程模型方面不再有新突破,仅靠硬件降价和推理优化,也将在五年内带来可观利润。” 目前,Anthropic凭借技术优势维持领先,同时通过扩展Claude Code订阅服务,努力减少对API收入的依赖。该公司能否在OpenAI、谷歌等强劲竞争者面前守住编程市场,将决定其爆炸式增长是延续辉煌,还是遭遇重大阻力。 在这场关于谁将掌控未来技术进步节奏的“赢家通吃”竞赛中,Anthropic虽已建立起一座以两大客户为基础的帝国,如今正面临如何守住这一基业的关键时刻。