微软公司(Microsoft Corp.)正与人工智能公司OpenAI展开深入谈判,寻求达成一项新的协议,以在未来持续获取OpenAI的核心技术资源。这项协议旨在解决双方合作中最具挑战性的问题之一:如何在OpenAI实现通用人工智能(AGI)之后,继续保障微软的技术访问权限。 据多位知情人士透露,谈判已进行多轮,双方可能在未来数周内敲定最终协议。新协议预计将修改现有条款,确保即使OpenAI宣布其已实现AGI,微软仍可继续使用其最新模型与技术。根据当前合约,一旦OpenAI实现AGI,微软的部分使用权将自动终止。 据了解,OpenAI首席执行官山姆·奥特曼(Sam Altman)与微软首席执行官萨蒂亚·纳德拉(Satya Nadella)本月早些时候曾在爱达荷州太阳谷举行的Allen & Co.大会上就此进行了讨论。尽管谈判氛围整体积极,但消息人士也警告称,协议尚未最终敲定,仍可能面临新的障碍。 微软自2019年以来已向OpenAI投资超过137.5亿美元,是该初创公司最大的外部资助者之一。此前的协议规定,一旦OpenAI达成其设定的“通用人工智能”目标,微软将失去部分对其技术的访问权。当前谈判的目标之一,就是避免这种“技术断供”在协议期满前(即2030年)发生。 此次谈判还伴随着OpenAI内部结构的重组,OpenAI正试图由一个非营利组织向以盈利为导向的结构过渡。该过程复杂多变,还受到监管审查以及特斯拉首席执行官埃隆·马斯克的诉讼挑战。马斯克曾是OpenAI早期的支持者,后因理念不合退出,并指控该公司背离其非营利使命、欺骗投资者。OpenAI方面否认相关指控,称马斯克是在试图阻挠公司的发展。 除了调整技术访问权,OpenAI也希望在收入分配与知识产权上获得更大自主权。据知情人士透露,该公司希望能调整微软目前持有的股份比例,并争取更大份额的技术营收分成,同时希望在不依赖微软Azure平台的前提下拓展客户,尤其是向政府机构提供服务。 微软则希望确保在当前合约到期后仍可继续使用OpenAI的技术,尤其是新一代模型和关键工具。据悉,双方正在讨论微软在重组后新OpenAI中的持股比例,或在30%至35%之间。若微软认为该比例及其它条件不具吸引力,其也有可能选择维持现有协议。 在AGI方面,双方仍存在较大分歧。OpenAI官方定义AGI为“能在多数具经济价值的工作中超越人类的高度自主系统”。当前合约中有关AGI的条款较为复杂,设有技术与商业两个触发条件——一旦达到相关门槛,微软可能失去OpenAI全部技术的访问权,包括AGI之前所开发的成果。 OpenAI董事会拥有认定是否实现AGI的最终决定权;在商业方面,若公司累计利润达到1000亿美元、足以偿还微软投资回报,也将触发相关条款。虽然微软有权对此类认定提出质疑,但若双方无法达成共识,可能最终诉诸法律途径解决。此外,合约中还设有限制微软自主开发AGI技术的条款。 在此过程中,微软对合约条款的部分修改表现出一定灵活性。例如,在OpenAI以65亿美元收购由iPhone设计师Jony Ive联合创立的初创公司io时,微软放弃了部分相关知识产权权利。但在另一项收购中,微软的立场则较为强硬。据悉,OpenAI曾尝试收购AI代码工具开发商Windsurf,但由于微软拒绝放弃其知识产权访问权限,该交易最终告吹。Windsurf与微软旗下产品存在直接竞争,最终,其创始人团队及部分员工选择加入谷歌,成交金额达24亿美元。 业内分析人士认为,若此次协议能够达成,将消除OpenAI重组过程中的一项重大障碍。高盛分析师Kash Rangan在接受彭博电视采访时指出,双方合作的深度令其都有显著的利益要素需要保障,这项协议的达成对两家公司而言都将是一个积极信号。
Author: aitrendtrackers@rengongzhineng.io
ChatGPT正式推出了名为“学习模式(Study Mode)”
据《卫报》2025年7月29日报道,为了鼓励学术领域对人工智能工具的“负责任”使用,ChatGPT正式推出了名为“学习模式(Study Mode)”的新功能。该功能旨在遏制大学中日益严重的AI滥用问题,并引导学生以更负责任的方式使用这一技术。 根据开发商OpenAI发布的信息,“学习模式”可通过ChatGPT界面中的工具按钮进入,其核心在于通过类似逐步展开的学术课程的形式,带领用户理解复杂主题。例如,在OpenAI展示的一个案例中,当用户请求帮助理解贝叶斯定理(Bayes’ Theorem)时,ChatGPT会首先询问用户掌握的数学水平和学习目标,然后再逐步引导其理解该数学公式,而不是直接提供完整答案。 OpenAI此举正值高校学术诚信遭遇AI挑战之际。据《卫报》针对英国高校学术违规行为的调查显示,2023至2024学年,共记录近7000起与AI工具相关的作弊案例,相当于每千名学生中约有5.1人涉案;而2022至2023学年,这一数字为每千人1.6起。 OpenAI方面指出,美国大学生中有超过三分之一正在使用ChatGPT,其中大约四分之一的对话与学习、辅导及学校作业相关。“学习模式”的设计目的在于避免学生直接获取完整的文章或考试答案,而是推动他们理解知识背后的原理。OpenAI在说明中表示,该模式“不会在未引导学生理解的前提下直接提供解决方案”。 不过,OpenAI也坦言,即使推出了“学习模式”,学生依然可以选择绕过该功能,利用ChatGPT获得学术捷径。 OpenAI的国际教育负责人Jayna Devani表示,公司希望ChatGPT被用于正向的学习过程,而非助长学术不端。“如何让学生认识到,与ChatGPT建立负责任的互动关系,是推动学习的一部分?这项功能就是我们迈出的第一步,”她说。 Devani进一步指出,要解决AI在教育中的滥用问题,仅靠技术公司是不够的,整个教育行业需要就评估方式和“什么是负责任的AI使用”达成明确共识,并出台清晰的指导方针。 据介绍,新推出的“学习与学习(Study and Learn)”模式,尤其适用于课后作业辅导、考试备考以及新知识的学习过程。此外,该模式还支持图片互动,用户可以上传过去的试题图片,由ChatGPT协助解析。 OpenAI还透露,在开发过程中,公司与教师、科学家和教育专家合作,确保新工具符合教学实际。但同时也提醒用户,目前在多轮对话中可能仍存在不一致行为和错误情况。
构建高性能系统的“vibe coding”实践回顾
近年来关于“vibe coding”的文章层出不穷。Indragie Karunaratne、Edward Yang 与 Cloudflare 的一些案例引发了广泛关注。这些项目往往有三个共通点:创作者本身已是该领域专家、应用为只读型因而容错度高,或者是在一个标准明确、设计空间有限的领域中展开。 然而,作者最近使用代理型编码方式构建了一个系统,目标是在24小时内抓取十亿个网页。这个项目的不同之处在于: 这篇文章详细说明了 AI 编码方式的助益与局限,并配有代码片段与对话日志链接。 结论预告:整体而言,AI 赋能效果显著。 作者主张,这些经验在构建其他高性能系统时也具有参考价值,尽管有一定前提条件。 一、工具与设置 作者使用了 Cursor(一个支持 AI 助理的 IDE),主要搭配 Claude 模型进行开发。没有使用后台 Agent(当时仍处于预览阶段)。尽管一些工程师如 Steve Yegge 早已将此类“聊天编码”模式称为“即将成为历史的古董”,作者仍选择坚持使用 Cursor,理由包括: 在整个项目中,总共有 32,169 行代码变动,仅有 1253 行是手写,约占 3.75%。 项目于 5 月底开始,当时仍是业余时间进行(最初使用 Gemini 2.5 Pro,后转为 Claude 4 Opus)。经历了 8 套完全不同的系统设计与无数实验后,作者利用 7 月 4 日所在的假期专心推进,最终实现目标。回顾整个过程,若能使用后台代理或并行机制,或许能节省大约一周的开发时间。 二、问题本质 AI 能带来多大帮助,取决于问题本身的形状——包括: 本项目涉及一个陌生领域。虽然作者在实时 C++、网页应用、开发者工具和 GPU 内核方面经验丰富,但数据密集型系统与所用的数据库技术对他而言皆属全新。…
回顾 Palantir:八年之旅的反思
Palantir 近期可谓炙手可热。该公司刚刚加入标准普尔500指数,股价一路飙升,市值接近1000亿美元。风投纷纷追逐前 Palantir 员工,希望能参与投资。 然而,对于那些长期在 Palantir 工作或已经离职的员工而言,这种热度显得颇为陌生。尤其是在2016至2020年间,声称自己在 Palantir 工作并不讨喜。该公司常被贴上“间谍技术”、“NSA监控工具”等标签,甚至更糟。公司外时常有抗议活动。即便是那些在道德层面上对公司没有疑虑的人,也往往将其视作一个伪装成软件公司的咨询机构,或是更高端的人才套利平台。 尽管作者本人于去年离职,但他此前从未公开分享过在 Palantir 的经历与反思。也正是因为外界对公司的理解存在诸多误区,他希望能以一个在公司工作八年的人的视角,尽可能还原真相。 一、加入的原因 作者于2015年夏天加入 Palantir,最初在伦敦的新办公室工作,之后转至硅谷,最后派驻华盛顿特区,担任“前线部署工程师”(FDE)。当时公司约有1500人,办公室分布于帕洛阿尔托总部、纽约、伦敦等地。如今公司人数已增长至约4000,总部迁至丹佛。 加入 Palantir 的动机有两个: 首先,作者希望能在“困难行业”中解决真正有意义的问题。个人兴趣所在的医疗与生物领域,正是 Palantir 当时正在初步涉足的方向。彼时,大多数科技公司热衷于社交网络(如Facebook、LinkedIn、Quora)或消费类应用(如Dropbox、Uber、Airbnb),而很少有人聚焦于航空航天、制造业、网络安全等“棘手”的实体经济板块。Palantir 是少数愿意投入这些领域的硅谷公司之一。 其次,出于移民和创业计划的考量,作者希望能在这些行业中深入了解,积累经验,并通过美国公司申请绿卡。Palantir 满足了这两点要求,因此成了不二之选。 此外,公司的“人才密度”令人印象深刻。在加入前,他曾与医疗板块的早期成员交流(如 Nick Perry、Lekan Wang 和 Andrew Girvin),并在后续与早期业务运营与战略团队面试中更加确信,这是一群极具竞争力、充满理想主义与哲学兴趣的人。他们会在业余时间阅读哲学,尝试各种极端饮食法,还把100英里骑行当作消遣。这种气质显然与 PayPal 早期文化一脉相承。 正如早期 PayPal 成员 Yishan Wong 所言,PayPal 的与众不同之处并非天赋,而是来自领导层的极端投入与强烈竞争精神。Palantir 也继承了这一特点。 作者还回忆起初次与联合创始人 Stephen Cohen 的对话:办公室空调设为摄氏15度,一堆奇怪的设备用于降低二氧化碳含量,还有一杯装满冰块的水。整个交谈过程中,他不断咀嚼冰块——据说这对认知有益。 他也面试了首席执行官 Alex Karp,一位充满哲学思考的人物,其面试风格极具个性:无简历、无岗位描述,仅靠几分钟的抽象对话观察候选人如何拆解问题。与 Karp 的对话甚至不涉及技术,而是花一小时讨论维特根斯坦。 Palantir 的创始团队多为哲学出身(Karp 与 Peter Thiel…
OpenAI宣称在享有盛誉的国际数学竞赛中斩获金牌,引发Google激烈争议。
OpenAI声称其未发布的推理模型在享有盛誉的国际数学奥林匹克竞赛(IMO)中获得金牌,引发了激烈的争议,在全球数学竞赛界掀起一场风波。 正值多数高中生享受假期之际,全球最优秀的数学学子齐聚IMO这一被视为世界上最具权威的数学竞赛。与此同时,人工智能实验室也派出自家大型语言模型(LLM)参与角逐。据研究人员Alexander Wei在社交平台X上透露,OpenAI的一款尚未发布的模型表现出色,得分足以斩获一枚金牌。 据介绍,该模型在六道试题中解对了五题,获得了42分中的35分,达到了金牌标准。Wei指出,每道题的评分均由三位曾获IMO奖牌的前选手独立完成,最终评分在三人一致达成共识后敲定。这些题目涵盖代数与初等微积分,要求参赛者具备高度的创造性思维。因此,AI模型能够推理出复杂、冗长的数学证明,被视为一项令人惊艳的技术成就。 然而,OpenAI公布这一结果的时机却引发了争议。据称,IMO方面曾要求与其有正式合作的AI实验室,在比赛结果揭晓后等待一周再发布公告,以免抢去学生参赛者的风头。这一说法来自AI治理与安全研究所(AI Governance and Safety Institute)负责人Mikhail Samin,他在X平台发文指出,OpenAI并未与IMO就成绩验证进行官方合作,而是与个别数学家合作、独立验证模型得分,因此不受此类协议约束。Mashable已就此联系Samin,寻求进一步评论。 不过,有关人士传出,这一举动令IMO组织方感到不悦,甚至有人形容OpenAI的行为“无礼”且“不合时宜”。相关传闻还包括Samin发布的一张截图,其中有人名为Joseph Myers、据称是两届IMO金牌得主,对此表达不满。Mashable已联系Myers,但对方尚未公开确认截图内容的真实性。 对此,OpenAI研究人员Noam Brown回应称,该团队是在IMO闭幕式结束后才公布结果,以此尊重一位IMO组织者提出的请求。Brown还指出,OpenAI并未与IMO建立任何联系,也没有参与任何有关发布时间的协定。 与此同时,谷歌DeepMind方面则被曝已与IMO正式合作,并于当天下午宣布,旗下“升级版Gemini模型Deep Think”在IMO中正式达成金牌标准。根据官方声明,该模型“由IMO协调员按照与学生相同的评分标准进行正式评审和认证”。这一声明的措辞与发布时间,引发外界对其背后意图的种种猜测。 虽然不少人热衷于追剧《真实主妇》,但在精英数学竞赛这一圈层中,遵守比赛礼仪和时间安排的细节,才是真正让圈内人士津津乐道的“高端戏剧”。
没人真的知道该怎么用AI开发软件
上周,一个名为 Protocollie 的项目上线。整个开发过程用了4天,使用了作者并不熟悉的编程语言,也没有真正“写”代码——全是靠AI完成的。尽管许多人追问“这是怎么做到的”,但作者坦言:可能下次再做一遍也不会一样。 整个过程,就是在边走边编。 没人照着剧本走的“伟大实验” 每当一项新技术诞生时,总有个阶段是大家假装自己很懂。AI开发,现在可能已经过了那个阶段,也可能还没到。但无论如何,当下正处于一个有趣的“中间地带”——变化太快,没人能装作专家。 关于“专家”这个词,作者也有反思:成为专家需要多久?Malcolm Gladwell说是1万小时,但那是讲小提琴和国际象棋——那些规则不会每两周就变一遍的技能。而AI开发不一样,它的规则会在一夜之间彻底改写。 放眼当前,即便是世界上最有经验的AI协作程序员,也不过干了两年。这意味着所有人都是初学者。并且,随着技术飞速进化,这种“永远初学”的状态可能会成为常态。 正在运行的实验(随时可能变) 作者口中所谓的“系统”,其实并不是精心规划的,而是慢慢积累出来的。就像办公桌上堆满了文件,有一天突然发现“咦,这像是个归档系统”。 一开始,是一个文档——记录AI Claude对架构的理解,以免重复讲解。接着第二个文档出现了——因为同样的问题反复出现,需要集中解决。然后是第三个——因为流程也在重复,于是干脆整理下来。再之后是第四个——因为项目里嵌套着许多“小故事”,它们需要一个容器。 这四个文档的出现,并不是因为“四”是最优解,只是碰巧在第四个的时候停下了。 有时候,作者也怀疑:是不是只是在“扮演程序员”?就像小朋友玩“过家家”,假装“这个文档是架构”、“这个过程是正式流程”、“我们好像知道自己在干什么”。 但结果是真实的——软件能编译、能运行、有人在用。或许,这种“假装”本身就是关键?也许,所谓的方法论,本质上就是一种“大家共同相信的虚构”,恰好能产出结果。 四份文档的简要介绍: 在AI时代中的“时间扭曲” Protocollie开发的第一个星期天,作者体验到了一种全新的工作方式。他一边喝咖啡、一边随手测试Claude生成的代码,确认能运行就提交,再说一句“现在帮我写服务器UI”,然后离开。 吃早饭的时候,Claude在写代码。陪孩子玩的时候,Claude在写代码。看电视的时候,Claude还在写代码。 每隔一小时回来检查五分钟,提一句反馈,“记住上次连接的服务器”,再继续日常生活。 这就像是拥有了一个勤奋、专注、永不走神的初级程序员,对方每分钟能输出上万字,永远不会分心刷推特。 整个星期天,作者真正“工作的时间”可能不到90分钟,其余时间都是Claude在工作,而自己只是偶尔出现做决策,或者测试一下。 这种“时间扭曲”打破了作者对工作的所有认知模型: 有时候,这甚至让人感到内疚。好像在“作弊”。仿佛某位Hacker News上的老手随时会跳出来说:“请停止边做煎饼边开发软件,这不合规,请回到你应有的挣扎中去。” 关于“扔意大利面” 作者最近向一位朋友比喻说,AI开发现在还处于“往墙上扔意大利面”的阶段。对方纠正说:“你是说看哪根粘住吧?”“不,”作者说,“重点根本不是粘住与否,重点是‘扔’的动作。” 每个怪异的流程、每次失败的尝试、每个“不该成功但它成功了”的时刻,都是我们这个时代共同实验的“数据点”。作者的“四文档系统”只是那些恰好组成一个可以辨认图案的面条组合。明天它也许就会滑下墙面——没关系,到时候再扔。 “编程”到底意味着什么? 作者从HTML手工排表的时代一路走来,亲历了每一波技术抽象的演进:从汇编到C,从C到Java,从Java到Ruby,再到如今的“我说出想法,它就实现”。 但这次的变化,不只是又一层抽象,它是完全不同的东西。 Protocollie的构建过程中,作者既不是在“编程”,也不是“非编程”。他甚至不知道该怎么定义这个行为。 今天的核心技能,已经不是语法、算法,甚至不是系统设计了。而是类似于:“具象的渴望”、“精确的想象”、“结构化的愿望”。 四份文档,变成了哲学反思 回头看,作者意识到这些文档本质上不是技术文档,而是关于记忆与遗忘的哲学产物: 也许所有的文档,本质上都是写给未来那个迷茫的自己的留言。 不确定的高原期 所有人又变成了“初级程序员”。但不是传统意义上“终有一天会变资深”的那种,而是一种永久性的初级状态——技术的演化速度,远快于经验的积累速度。 就像在一片物理法则不断变化的海洋上冲浪。刚学会了浪怎么起,它就开始横着来、倒着走,甚至变成了飞鸟。 对于某些人来说,这是恐惧;而对另一些人,则是解放。 接下来会怎样? 没人知道。作者也不确定下周会做什么、怎么做、还会不会用文档,甚至怀疑现在的这些系统是否还有意义。 但这种不确定性,作者已经学会接受——甚至喜欢上了。 在这个时代,每个开发者同时都是专家(对自己那套怪流程)也是新手(对下一波变化)。四天能完成原本需要数月的工作。最重要的能力,变成了**“清晰表达自己的想法给一个比你还快的打字手”**。 作者的四份文档,不是标准,不是模板,只是过去某个星期的化石。已经过时,已经开始令人怀念。 正是这种感觉,让此刻变得如此充满电流:人们在退潮的海滩上建起一座座沙堡,知道海水终将归来。但此时此刻,他们正兴高采烈地创造着属于这一刻的软件。 明天,也许有人会发明“三文档系统”。或“五文档系统”。甚至完全不写文档,只靠愿望。 而这些可能……也会起作用。 那四份文档?现在已公开在GitHub上了。不是范式,也不是手册,更像是考古学材料:“2025年的某个星期,有人曾这样干过一次。” 读一读也好。看着困惑也好。然后丢开,走自己的路。 它们不是指南,只是一个佐证:某种做法,曾经奏效过。 就像远足时看到的别人的路标——知道有人走过这条路很有帮助,但以为这就是自己的路,可能就错了。
Meta公司的“44人名单”近日遭到泄露
Meta公司的“44人名单”近日遭到泄露,引发了科技行业内广泛关注与讨论。这份名单被认为是科技史上最为大胆的一次AI人才收购行动,由Meta首席执行官马克·扎克伯格亲自挑选,囊括了来自OpenAI、DeepMind、Apple、Anthropic等顶尖实验室的多位人工智能领域的核心研究人员。该团队被视为Meta打造通用人工智能(AGI)计划的核心力量,标志着其正积极挑战OpenAI与Google DeepMind在AI领域的领先地位。 “44人名单”指的是什么?该术语目前主要流传于行业内部,指的是一份非官方但广泛传播的文档,列出了Meta超级智能实验室(Superintelligence Labs)团队的44位核心成员。名单的流出始于多位OpenAI等公司的知名研究人员相继辞职,而Meta随后宣布组建统一的超级智能实验室,引发了业界对于人才流动与AI战略格局的高度关注。 尽管Meta尚未正式发布这份名单,外泄信息显示出以下几个关键特征: 该名单被业内普遍视为Meta在AI人才争夺战中的宣战书。 团队成员有哪些人?目前部分成员身份已经被路透社、Business Insider、《连线》杂志和《金融快报》等媒体确认或公开报道,包括但不限于: 尽管完整名单尚未公开,但已有约20至25位成员被各大权威媒体所证实。 名单的国际组成与“华人主导”的关注点名单中一个备受关注的焦点是成员背景的国际化。其中约50%具有华裔血统,尽管大多数成员受教育于美国与欧洲,这一结构已引起美国政界与监管机构的关注。在Meta加大海外数据中心建设投入、不断扩大其在全球AI影响力的背景下,该团队的构成被赋予更多地缘政治意味。 与此同时,该名单中仅包含两位印度裔成员(Trapit Bansal和Hammad Syed),尽管印度长期以来是AI人才的重要输出国。 高额薪酬与人才争夺战Meta方面虽否认部分极端说法,但多位业内人士透露,一些参与OpenAI核心架构研发的工程师确实获得了九位数的待遇。某份内部流出文件显示: “超级智能实验室的一般研究员年薪在1000万美元至6000万美元之间,核心成员的薪酬则更高。” 如此惊人的薪酬结构引发了对“AI人才外流”的激烈讨论,尤其是OpenAI、Apple与Google在人才保留方面的压力正在持续加剧。 这份名单为何至关重要? Meta超级智能团队核心数据一览: 指标 数据/估算 成员总数 44人 华裔成员比例 50% 前OpenAI成员比例 40% 博士学历占比 约75% 平均薪酬范围 1000万至6000万美元 印度裔成员人数 2人(Trapit Bansal与Hammad Syed) 研究重点 大型语言模型、多模态系统、强化学习、推理能力 已公开确认成员 约20至25人 Meta的“44人名单”不仅是一份技术人员列表,更是AI格局深刻重构的象征,其背后的战略意图、全球布局与人才战术正深刻影响着人工智能的未来走向。
OpenAI开发的一款实验性大型语言模型(LLM),在2025年国际数学奥林匹克竞赛(IMO)中达到了金牌水平
由OpenAI开发的一款实验性大型语言模型(LLM),在2025年国际数学奥林匹克竞赛(IMO)中达到了金牌水平,标志着人工智能推理能力的又一重要里程碑。 OpenAI研究员Alexander Wei在社交平台X上宣布了这一成果。他表示:“OpenAI最新的实验性推理语言模型,已实现了人工智能领域长期以来的一大挑战:在世界最具声望的数学竞赛——国际数学奥林匹克中取得金牌水平的表现。” 据介绍,该模型的评估完全按照人类参赛者的标准进行,包括两场各4.5小时的测试、不允许使用工具或连接互联网,并且需要针对IMO官方试题书写详细证明过程。最终,该模型成功解答了6道题中的5道,获得了42分中的35分。每道题由三位前IMO金牌得主独立评分,最终成绩在一致认同下确定。 IMO竞赛题目被广泛认为是竞赛数学领域中最具挑战性的题目,往往需要参赛者进行长时间、极具创造性的推理。对此,Wei指出,这是AI在推理基准测试上逐步取得突破的延续:“从GSM8K(人类大约0.1分钟解答)→ MATH基准(1分钟)→ AIME(10分钟)→ IMO(100分钟),我们已经走了很长一段路。” 他进一步指出,IMO题目的难度要求模型具备前所未有的持续创造性思维能力,该成果也反映出“通用强化学习与测试时计算扩展”方面的进展。 尽管取得了突破性的表现,该模型在短期内不会向公众开放。Wei表示:“这款获得IMO金牌的LLM是一个实验性研究模型,近期内不会发布任何具备这种数学能力的系统,至少还需几个月时间。” 与此并行,OpenAI计划很快推出GPT-5,但IMO竞赛能力模型属于另一个研究方向。“GPT-5即将发布,我们对此感到非常兴奋。”Wei透露。 与此同时,Hyperbolic Labs联合创始人Yuchen Jin也在X上暗示,GPT-5的发布可能已经迫在眉睫。据他透露,GPT-5并非单一模型,而是由多个专用模型构成的系统,并配备有一个动态路由器,可以根据任务在擅长推理、非推理以及工具使用的模型间智能切换。 Jin指出,这种架构可能正是OpenAI首席执行官Sam Altman此前所说的“修正模型命名”的原因,因为用户将无需手动选择具体模型,系统会自动将提示指向最合适的模型。 此外,Jin还透露,GPT-6目前已经进入训练阶段,并希望该过程不会因为更多的安全测试而被延迟。 Wei也提及了此次突破的更深层意义:“这进一步说明AI在近年发展速度之快。2021年,导师Jacob Steinhardt让我预测到2025年7月AI在数学上的进展,当时我预测的是MATH基准的正确率达到30%……而如今,我们已经实现了IMO金牌。” 在这一成果背后,Sheryl Hsu、Noam Brown等研究人员也被特别提及并给予了高度评价。 而在去年,谷歌DeepMind旗下的AlphaProof与AlphaGeometry 2也曾在国际数学奥林匹克中解出6题中的4题,获得相当于银牌选手的得分,显示出AI数学能力正在多个维度快速提升。
Meta斥资150亿美元打造“超级智能实验室”,引发硅谷史上最昂贵的AI人才争夺战
Meta创办人马克·扎克伯格(Mark Zuckerberg)以大胆下注、力图重塑整个产业而著称,尽管这种策略有时也以高昂代价告终。继元宇宙计划耗资460亿美元却收效甚微后,这位科技巨头如今再度加码,押注人工智能中的终极目标——“超级智能”(Superintelligence)。 这一次,风险更高,竞争更激烈,潜在回报更具颠覆性。扎克伯格的AI押注,不仅远超元宇宙时期的资金投入,更以九位数薪酬和基础设施投资,掀起了硅谷有史以来最昂贵的人才争夺战。这场战役最终可能确立Meta在AI时代的霸主地位,也可能成为另一个野心勃勃却误入歧途的反面教材。 Meta超级智能实验室的诞生 Meta超级智能实验室(Meta Superintelligence Labs)的成立,标志着这家社交媒体巨头战略方向的重大转变。在接受《The Information》旗下TITV直播专访时,扎克伯格透露:“今年最令人兴奋的事情,是我们开始看到模型具备自我改进的初步迹象——这意味着超级智能的实现已在视野之内。” 为此,Meta重组整个AI部门,目标是实现“为全球每一个人提供个人超级智能”(Personal Superintelligence)。这一实验室的创立也被视为对过去内部AI团队低效管理、员工流失与产品反响平平等问题的回应。 扎克伯格选择彻底改革而非渐进优化,不仅从外部引入领导力量,也重新定义了公司研发AI的方式。 硅谷最昂贵的人才战? Meta的超级智能愿景,以极具冲击力的人才战略为核心。为组建这一实验室,扎克伯格开启了一轮史无前例的高薪挖角行动,向来自OpenAI、Google、Apple和Anthropic等公司的顶尖研究员,开出高达一亿美元以上的薪酬。 在面对有关1至2亿美元年薪的传闻时,扎克伯格并未直接否认,而是表示:“虽然具体数字未必准确,但这是一个极为火热的市场……顶尖研究员的数量很少,各家实验室都在争抢。” Meta不仅靠高薪吸引人才,扎克伯格强调:“我们基本为每位研究员提供最强的计算资源,这不仅利于工作开展,也是吸引人才的关键优势。”这一策略凸显出超级智能竞赛中,“人才密度”比团队规模更为关键。 亚历山大·王:价值143亿美元的赌注 Meta人才战略的核心,是对AI初创公司Scale AI的巨额投资。今年6月,Meta以143亿美元取得该公司49%股份,并将其创办人亚历山大·王(Alexandr Wang)及其核心团队纳入Meta高层。 年仅28岁的王,如今已担任Meta首席AI官,主导“Meta超级智能实验室”的整体工作。他带领十余位新聘研究员、Scale的多位副手,以及GitHub前CEO纳特·弗里德曼(Nat Friedman)组成新领导层。 这支团队与Meta主力团队分开办公,办公室靠近扎克伯格本人,显示该项目在公司战略中的核心地位。 哲学转向:从开源走向闭源? 最引人注目的变化之一,是Meta可能放弃其长期坚持的开源哲学。据悉,王及实验室核心成员上周曾讨论,是否应放弃开源模型“Behemoth”,转而开发闭源模型。 这将是Meta在AI路线上的重大转折。过去数年,该公司一直倡导开源,认为让更多开发者参与其中,能加快技术演进并促进公平访问。 此次转变反映出Meta对竞争格局的担忧。目前,“Behemoth”模型已完成训练数据输入,但由于内部性能表现不佳,尚未发布。这一挫折促使高层重新评估开源策略。 基础设施:下一场竞争的护城河 除了人才争夺,Meta也在基础设施建设上加大投入,力求支撑超级智能的研发需求。扎克伯格透露,公司正在建设多个“多吉瓦级”的数据中心,甚至使用“防风雨帐篷”以加速施工。 其中“Hyperion”数据中心未来规模将达五吉瓦,场地面积堪比整个曼哈顿城区。如此庞大的投资得益于Meta稳健的现金流,扎克伯格表示:“这些项目完全可由公司的自由现金流支持。” 个人超级智能:与众不同的愿景 与其他实验室致力于“自动化社会中所有经济活动”不同,Meta的愿景聚焦于“个人生活的意义”,包括关系、文化、创意与乐趣。 扎克伯格在专访中表示:“我们关心的是如何用AI来帮助人们更好地享受生活。”这一理念与Meta的硬件布局——尤其是AR眼镜项目——紧密相关。 他甚至预测:“未来没有AI眼镜,你将处于认知劣势。”并设想AI伴侣将“观察用户生活,主动提醒与跟进事务。” 产业影响与竞争动态 Meta的超级智能行动,对整个行业已产生重大影响。其高薪策略带来了AI领域的薪资膨胀,迫使其他公司提高报酬以留住核心人才。 在提及与竞争对手在Sun Valley峰会的互动时,扎克伯格虽强调“我们并未有意针对任何人”,但业内普遍认为,这实际上是一场零和博弈:争夺有限的顶尖AI研究员。 Meta转向闭源的可能性,也预示着行业整体将更加倾向于专有开发,放弃“开源共享”式的协作路径。 总结:Meta的决定性时刻 Meta的超级智能计划,代表着对公司未来发展方向的全面重塑。继元宇宙失利后,扎克伯格再次押上重金,这次的投入预计将在未来数年内超过1000亿美元。 Meta超级智能实验室的成败,将不仅影响公司自身命运,也将左右整个AI产业的走向。随着内部部分未入选王团队的员工表达跳槽意愿,项目的成败已不容小觑。 扎克伯格的这场豪赌能否兑现技术突破,尚未可知。但毫无疑问,硅谷史上最昂贵的一场人才争夺战,已经打响。
大型语言模型的白日梦循环
尽管大型语言模型已经展现出令人惊叹的能力,但至今尚未取得真正意义上的突破性发现。这引发了一个耐人寻味的疑问:为什么会这样? 有一种可能的解释是,这类模型缺乏人类思维的一些根本特征:它们是静态的,无法从经验中持续学习,也没有类似人脑“默认模式网络”(Default Mode Network, DMN)那样的后台处理机制——而这恰恰是人类灵感和顿悟的重要来源之一。 为了应对这一局限,有研究者提出了一种称为“白日梦循环”(Day-Dreaming Loop, DDL)的设想。这是一种在背景中运行的过程,持续地从模型的记忆中抽取两个概念的组合,由生成模型探索它们之间非显而易见的联系,再由评估模型筛选出具有真正价值的创见。这些被识别出的想法将被重新注入系统的记忆中,形成一种复利式的反馈机制:新生成的想法又成为未来概念组合的种子。 不过,这一机制所需的代价——即所谓的“白日梦税”(daydreaming tax)——可能非常高昂,因为从大量组合中发现有价值的新颖点的命中率极低。然而,这种“浪费”可能正是创新的必要代价。同时,这也为模型蒸馏(model distillation)设置了障碍,因为白日梦机制所产生的洞见往往是无人会主动提出的问题。 从战略角度来看,这一结论具有反直觉的意味:为了让 AI 对终端用户来说更加高效且低成本,或许必须先建构那些大多数算力都用于无用搜索的“昂贵系统”。未来,可能会出现一类专用于生成专有训练数据的高成本白日梦型 AI,而真正面向大众的,是继承其成果的高效、小型模型。这种路径,可能为穿越即将到来的“数据壁垒”提供一条出路。 美国作家威廉·费菲尔德(William Fifield)在1964年的一篇综合访谈中,曾引用毕加索的一句话作为回应当时兴起的“电子大脑”现象:“但它们没用。它们只能给出答案。”这句话意味深长,似乎也道出了当前 LLM 研究的瓶颈。 在播客主持人帕特尔(Dwarkesh Patel)看来,至今尚未有任何大型语言模型展现出真正出人意料的突破性洞察,哪怕它们具备极高的知识密度和测试分数。这是一个真正的谜题——因为在提示适当时,这些模型似乎能以令人振奋的方式整合信息,几乎接近“洞察”的边缘,但始终未能跨越那一关键点。究竟缺少了什么? 有两项关键的“缺失能力”被认为是原因之一: 一、持续学习(Continual Learning) 当前主流 LLM 都是冻结状态的神经网络(frozen NNs),即在部署后不再发生参数更新。这意味着它们无法进行动态的再训练,也无法从新的经验中获得反馈。尽管“动态评估”(dynamic evaluation)等技术早已存在并可用于在线学习,但主流 LLM 并未采用。 因此,它们常常困在自身的“先验”知识中,无法摆脱初始猜测和显而易见的答案。人类历史中从未有任何一个患有顺行性遗忘症(anterograde amnesia)的人能创造出重大创新,而 LLM 恰恰面临类似状况。 二、持续思考(Continual Thinking) 另一项区别则是人类研究者从不停止思考。人脑即使在睡眠中,也在不断处理信息,这部分解释了为何大脑在静息状态下也消耗大量能量。 科学与创造力研究强调时间与睡眠在激发“孵化效应”(incubation effect)方面的重要性。人类的灵感往往并非出现在主动思考时,而是在放松或“放空”时突然出现。这种“涌现思维”的例子数不胜数:从过时的冷笑话到错过的暗示,从突如其来的焦虑想法到意外的灵感闪现。 这些思维的爆发往往是无意识且不可预测的,与当前所专注的任务毫无关联。例如,一位作者正在撰写游戏美学的文章时,突发灵感想到了“LLM 的默认模式网络应该是什么样子”这一问题,从而催生了这篇设想。 假设:白日梦循环机制(Day-Dreaming Loop) 那么,这种思维过程是如何、何时、何地发生的? 显然,它并非发生在显意识中,且通常是在无意间发生的。这是一种普遍现象,并不易耗尽:即便历经几十年,许多人仍然定期体验到这些突发念头。它可能是生物学上昂贵的过程,因为其本质涉及复杂的计算和神经资源消耗。推测多数动物并不具备类似“灵光一现”的能力。 其机制可能是并行的,因为人脑可能同时在多个神经通路中进行概念组合。它可能部分与海马体在睡眠中进行的记忆重播过程相关,但又不完全等同,因为白日梦式的思考也常发生在醒着时处理短期记忆的过程中。 此外,它可能被集中注意力的任务所抑制。例如,研究者发现,在专注阅读或编码时,这种突发想法几乎停止;而一旦暂停,灵感就如潮水般涌来。 因此提出了“白日梦循环”这一模型:人脑在空闲时随机提取两个记忆片段进行组合,并对结果进行评估,若认为“有趣”,便晋升为显意识,甚至可能写入长期记忆。这一机制虽然简单,却可能是人类创新的核心引擎。 研究者指出,不需要复杂的高阶组合就能实现持续创新,因为一旦新的组合进入知识库,它就会生成更多潜在的新组合。在经济创新模型中,查尔斯·琼斯(Charles I. Jones, 2021)也曾展示,即使“低垂果实”被优先采摘,创新仍然可以持续增长,甚至呈指数爆炸。 不过,该机制也极为浪费,大多数组合毫无价值,难以优化。由于人脑会随时间改变,过去被判断为无趣的组合在将来可能变得有价值,因此也必须反复检查。 LLM…