AI TrendTrackers

微软OpenAI展开深入谈判

Posted on July 30, 2025July 30, 2025 by aitrendtrackers@rengongzhineng.io

微软公司（Microsoft Corp.）正与人工智能公司OpenAI展开深入谈判，寻求达成一项新的协议，以在未来持续获取OpenAI的核心技术资源。这项协议旨在解决双方合作中最具挑战性的问题之一：如何在OpenAI实现通用人工智能（AGI）之后，继续保障微软的技术访问权限。据多位知情人士透露，谈判已进行多轮，双方可能在未来数周内敲定最终协议。新协议预计将修改现有条款，确保即使OpenAI宣布其已实现AGI，微软仍可继续使用其最新模型与技术。根据当前合约，一旦OpenAI实现AGI，微软的部分使用权将自动终止。据了解，OpenAI首席执行官山姆·奥特曼（Sam Altman）与微软首席执行官萨蒂亚·纳德拉（Satya Nadella）本月早些时候曾在爱达荷州太阳谷举行的Allen & Co.大会上就此进行了讨论。尽管谈判氛围整体积极，但消息人士也警告称，协议尚未最终敲定，仍可能面临新的障碍。微软自2019年以来已向OpenAI投资超过137.5亿美元，是该初创公司最大的外部资助者之一。此前的协议规定，一旦OpenAI达成其设定的“通用人工智能”目标，微软将失去部分对其技术的访问权。当前谈判的目标之一，就是避免这种“技术断供”在协议期满前（即2030年）发生。此次谈判还伴随着OpenAI内部结构的重组，OpenAI正试图由一个非营利组织向以盈利为导向的结构过渡。该过程复杂多变，还受到监管审查以及特斯拉首席执行官埃隆·马斯克的诉讼挑战。马斯克曾是OpenAI早期的支持者，后因理念不合退出，并指控该公司背离其非营利使命、欺骗投资者。OpenAI方面否认相关指控，称马斯克是在试图阻挠公司的发展。除了调整技术访问权，OpenAI也希望在收入分配与知识产权上获得更大自主权。据知情人士透露，该公司希望能调整微软目前持有的股份比例，并争取更大份额的技术营收分成，同时希望在不依赖微软Azure平台的前提下拓展客户，尤其是向政府机构提供服务。微软则希望确保在当前合约到期后仍可继续使用OpenAI的技术，尤其是新一代模型和关键工具。据悉，双方正在讨论微软在重组后新OpenAI中的持股比例，或在30%至35%之间。若微软认为该比例及其它条件不具吸引力，其也有可能选择维持现有协议。在AGI方面，双方仍存在较大分歧。OpenAI官方定义AGI为“能在多数具经济价值的工作中超越人类的高度自主系统”。当前合约中有关AGI的条款较为复杂，设有技术与商业两个触发条件——一旦达到相关门槛，微软可能失去OpenAI全部技术的访问权，包括AGI之前所开发的成果。 OpenAI董事会拥有认定是否实现AGI的最终决定权；在商业方面，若公司累计利润达到1000亿美元、足以偿还微软投资回报，也将触发相关条款。虽然微软有权对此类认定提出质疑，但若双方无法达成共识，可能最终诉诸法律途径解决。此外，合约中还设有限制微软自主开发AGI技术的条款。在此过程中，微软对合约条款的部分修改表现出一定灵活性。例如，在OpenAI以65亿美元收购由iPhone设计师Jony Ive联合创立的初创公司io时，微软放弃了部分相关知识产权权利。但在另一项收购中，微软的立场则较为强硬。据悉，OpenAI曾尝试收购AI代码工具开发商Windsurf，但由于微软拒绝放弃其知识产权访问权限，该交易最终告吹。Windsurf与微软旗下产品存在直接竞争，最终，其创始人团队及部分员工选择加入谷歌，成交金额达24亿美元。业内分析人士认为，若此次协议能够达成，将消除OpenAI重组过程中的一项重大障碍。高盛分析师Kash Rangan在接受彭博电视采访时指出，双方合作的深度令其都有显著的利益要素需要保障，这项协议的达成对两家公司而言都将是一个积极信号。

ChatGPT正式推出了名为“学习模式（Study Mode）”

Posted on July 30, 2025 by aitrendtrackers@rengongzhineng.io

据《卫报》2025年7月29日报道，为了鼓励学术领域对人工智能工具的“负责任”使用，ChatGPT正式推出了名为“学习模式（Study Mode）”的新功能。该功能旨在遏制大学中日益严重的AI滥用问题，并引导学生以更负责任的方式使用这一技术。根据开发商OpenAI发布的信息，“学习模式”可通过ChatGPT界面中的工具按钮进入，其核心在于通过类似逐步展开的学术课程的形式，带领用户理解复杂主题。例如，在OpenAI展示的一个案例中，当用户请求帮助理解贝叶斯定理（Bayes’ Theorem）时，ChatGPT会首先询问用户掌握的数学水平和学习目标，然后再逐步引导其理解该数学公式，而不是直接提供完整答案。 OpenAI此举正值高校学术诚信遭遇AI挑战之际。据《卫报》针对英国高校学术违规行为的调查显示，2023至2024学年，共记录近7000起与AI工具相关的作弊案例，相当于每千名学生中约有5.1人涉案；而2022至2023学年，这一数字为每千人1.6起。 OpenAI方面指出，美国大学生中有超过三分之一正在使用ChatGPT，其中大约四分之一的对话与学习、辅导及学校作业相关。“学习模式”的设计目的在于避免学生直接获取完整的文章或考试答案，而是推动他们理解知识背后的原理。OpenAI在说明中表示，该模式“不会在未引导学生理解的前提下直接提供解决方案”。不过，OpenAI也坦言，即使推出了“学习模式”，学生依然可以选择绕过该功能，利用ChatGPT获得学术捷径。 OpenAI的国际教育负责人Jayna Devani表示，公司希望ChatGPT被用于正向的学习过程，而非助长学术不端。“如何让学生认识到，与ChatGPT建立负责任的互动关系，是推动学习的一部分？这项功能就是我们迈出的第一步，”她说。 Devani进一步指出，要解决AI在教育中的滥用问题，仅靠技术公司是不够的，整个教育行业需要就评估方式和“什么是负责任的AI使用”达成明确共识，并出台清晰的指导方针。据介绍，新推出的“学习与学习（Study and Learn）”模式，尤其适用于课后作业辅导、考试备考以及新知识的学习过程。此外，该模式还支持图片互动，用户可以上传过去的试题图片，由ChatGPT协助解析。 OpenAI还透露，在开发过程中，公司与教师、科学家和教育专家合作，确保新工具符合教学实际。但同时也提醒用户，目前在多轮对话中可能仍存在不一致行为和错误情况。

构建高性能系统的“vibe coding”实践回顾

Posted on July 23, 2025July 23, 2025 by aitrendtrackers@rengongzhineng.io

近年来关于“vibe coding”的文章层出不穷。Indragie Karunaratne、Edward Yang 与 Cloudflare 的一些案例引发了广泛关注。这些项目往往有三个共通点：创作者本身已是该领域专家、应用为只读型因而容错度高，或者是在一个标准明确、设计空间有限的领域中展开。然而，作者最近使用代理型编码方式构建了一个系统，目标是在24小时内抓取十亿个网页。这个项目的不同之处在于：这篇文章详细说明了 AI 编码方式的助益与局限，并配有代码片段与对话日志链接。结论预告：整体而言，AI 赋能效果显著。作者主张，这些经验在构建其他高性能系统时也具有参考价值，尽管有一定前提条件。一、工具与设置作者使用了 Cursor（一个支持 AI 助理的 IDE），主要搭配 Claude 模型进行开发。没有使用后台 Agent（当时仍处于预览阶段）。尽管一些工程师如 Steve Yegge 早已将此类“聊天编码”模式称为“即将成为历史的古董”，作者仍选择坚持使用 Cursor，理由包括：在整个项目中，总共有 32,169 行代码变动，仅有 1253 行是手写，约占 3.75%。项目于 5 月底开始，当时仍是业余时间进行（最初使用 Gemini 2.5 Pro，后转为 Claude 4 Opus）。经历了 8 套完全不同的系统设计与无数实验后，作者利用 7 月 4 日所在的假期专心推进，最终实现目标。回顾整个过程，若能使用后台代理或并行机制，或许能节省大约一周的开发时间。二、问题本质 AI 能带来多大帮助，取决于问题本身的形状——包括：本项目涉及一个陌生领域。虽然作者在实时 C++、网页应用、开发者工具和 GPU 内核方面经验丰富，但数据密集型系统与所用的数据库技术对他而言皆属全新。…

回顾 Palantir：八年之旅的反思

Posted on July 23, 2025July 23, 2025 by aitrendtrackers@rengongzhineng.io

Palantir 近期可谓炙手可热。该公司刚刚加入标准普尔500指数，股价一路飙升，市值接近1000亿美元。风投纷纷追逐前 Palantir 员工，希望能参与投资。然而，对于那些长期在 Palantir 工作或已经离职的员工而言，这种热度显得颇为陌生。尤其是在2016至2020年间，声称自己在 Palantir 工作并不讨喜。该公司常被贴上“间谍技术”、“NSA监控工具”等标签，甚至更糟。公司外时常有抗议活动。即便是那些在道德层面上对公司没有疑虑的人，也往往将其视作一个伪装成软件公司的咨询机构，或是更高端的人才套利平台。尽管作者本人于去年离职，但他此前从未公开分享过在 Palantir 的经历与反思。也正是因为外界对公司的理解存在诸多误区，他希望能以一个在公司工作八年的人的视角，尽可能还原真相。一、加入的原因作者于2015年夏天加入 Palantir，最初在伦敦的新办公室工作，之后转至硅谷，最后派驻华盛顿特区，担任“前线部署工程师”（FDE）。当时公司约有1500人，办公室分布于帕洛阿尔托总部、纽约、伦敦等地。如今公司人数已增长至约4000，总部迁至丹佛。加入 Palantir 的动机有两个：首先，作者希望能在“困难行业”中解决真正有意义的问题。个人兴趣所在的医疗与生物领域，正是 Palantir 当时正在初步涉足的方向。彼时，大多数科技公司热衷于社交网络（如Facebook、LinkedIn、Quora）或消费类应用（如Dropbox、Uber、Airbnb），而很少有人聚焦于航空航天、制造业、网络安全等“棘手”的实体经济板块。Palantir 是少数愿意投入这些领域的硅谷公司之一。其次，出于移民和创业计划的考量，作者希望能在这些行业中深入了解，积累经验，并通过美国公司申请绿卡。Palantir 满足了这两点要求，因此成了不二之选。此外，公司的“人才密度”令人印象深刻。在加入前，他曾与医疗板块的早期成员交流（如 Nick Perry、Lekan Wang 和 Andrew Girvin），并在后续与早期业务运营与战略团队面试中更加确信，这是一群极具竞争力、充满理想主义与哲学兴趣的人。他们会在业余时间阅读哲学，尝试各种极端饮食法，还把100英里骑行当作消遣。这种气质显然与 PayPal 早期文化一脉相承。正如早期 PayPal 成员 Yishan Wong 所言，PayPal 的与众不同之处并非天赋，而是来自领导层的极端投入与强烈竞争精神。Palantir 也继承了这一特点。作者还回忆起初次与联合创始人 Stephen Cohen 的对话：办公室空调设为摄氏15度，一堆奇怪的设备用于降低二氧化碳含量，还有一杯装满冰块的水。整个交谈过程中，他不断咀嚼冰块——据说这对认知有益。他也面试了首席执行官 Alex Karp，一位充满哲学思考的人物，其面试风格极具个性：无简历、无岗位描述，仅靠几分钟的抽象对话观察候选人如何拆解问题。与 Karp 的对话甚至不涉及技术，而是花一小时讨论维特根斯坦。 Palantir 的创始团队多为哲学出身（Karp 与 Peter Thiel…

OpenAI宣称在享有盛誉的国际数学竞赛中斩获金牌，引发Google激烈争议。

Posted on July 22, 2025 by aitrendtrackers@rengongzhineng.io

OpenAI声称其未发布的推理模型在享有盛誉的国际数学奥林匹克竞赛（IMO）中获得金牌，引发了激烈的争议，在全球数学竞赛界掀起一场风波。正值多数高中生享受假期之际，全球最优秀的数学学子齐聚IMO这一被视为世界上最具权威的数学竞赛。与此同时，人工智能实验室也派出自家大型语言模型（LLM）参与角逐。据研究人员Alexander Wei在社交平台X上透露，OpenAI的一款尚未发布的模型表现出色，得分足以斩获一枚金牌。据介绍，该模型在六道试题中解对了五题，获得了42分中的35分，达到了金牌标准。Wei指出，每道题的评分均由三位曾获IMO奖牌的前选手独立完成，最终评分在三人一致达成共识后敲定。这些题目涵盖代数与初等微积分，要求参赛者具备高度的创造性思维。因此，AI模型能够推理出复杂、冗长的数学证明，被视为一项令人惊艳的技术成就。然而，OpenAI公布这一结果的时机却引发了争议。据称，IMO方面曾要求与其有正式合作的AI实验室，在比赛结果揭晓后等待一周再发布公告，以免抢去学生参赛者的风头。这一说法来自AI治理与安全研究所（AI Governance and Safety Institute）负责人Mikhail Samin，他在X平台发文指出，OpenAI并未与IMO就成绩验证进行官方合作，而是与个别数学家合作、独立验证模型得分，因此不受此类协议约束。Mashable已就此联系Samin，寻求进一步评论。不过，有关人士传出，这一举动令IMO组织方感到不悦，甚至有人形容OpenAI的行为“无礼”且“不合时宜”。相关传闻还包括Samin发布的一张截图，其中有人名为Joseph Myers、据称是两届IMO金牌得主，对此表达不满。Mashable已联系Myers，但对方尚未公开确认截图内容的真实性。对此，OpenAI研究人员Noam Brown回应称，该团队是在IMO闭幕式结束后才公布结果，以此尊重一位IMO组织者提出的请求。Brown还指出，OpenAI并未与IMO建立任何联系，也没有参与任何有关发布时间的协定。与此同时，谷歌DeepMind方面则被曝已与IMO正式合作，并于当天下午宣布，旗下“升级版Gemini模型Deep Think”在IMO中正式达成金牌标准。根据官方声明，该模型“由IMO协调员按照与学生相同的评分标准进行正式评审和认证”。这一声明的措辞与发布时间，引发外界对其背后意图的种种猜测。虽然不少人热衷于追剧《真实主妇》，但在精英数学竞赛这一圈层中，遵守比赛礼仪和时间安排的细节，才是真正让圈内人士津津乐道的“高端戏剧”。

没人真的知道该怎么用AI开发软件

Posted on July 21, 2025July 21, 2025 by aitrendtrackers@rengongzhineng.io

上周，一个名为 Protocollie 的项目上线。整个开发过程用了4天，使用了作者并不熟悉的编程语言，也没有真正“写”代码——全是靠AI完成的。尽管许多人追问“这是怎么做到的”，但作者坦言：可能下次再做一遍也不会一样。整个过程，就是在边走边编。没人照着剧本走的“伟大实验” 每当一项新技术诞生时，总有个阶段是大家假装自己很懂。AI开发，现在可能已经过了那个阶段，也可能还没到。但无论如何，当下正处于一个有趣的“中间地带”——变化太快，没人能装作专家。关于“专家”这个词，作者也有反思：成为专家需要多久？Malcolm Gladwell说是1万小时，但那是讲小提琴和国际象棋——那些规则不会每两周就变一遍的技能。而AI开发不一样，它的规则会在一夜之间彻底改写。放眼当前，即便是世界上最有经验的AI协作程序员，也不过干了两年。这意味着所有人都是初学者。并且，随着技术飞速进化，这种“永远初学”的状态可能会成为常态。正在运行的实验（随时可能变）作者口中所谓的“系统”，其实并不是精心规划的，而是慢慢积累出来的。就像办公桌上堆满了文件，有一天突然发现“咦，这像是个归档系统”。一开始，是一个文档——记录AI Claude对架构的理解，以免重复讲解。接着第二个文档出现了——因为同样的问题反复出现，需要集中解决。然后是第三个——因为流程也在重复，于是干脆整理下来。再之后是第四个——因为项目里嵌套着许多“小故事”，它们需要一个容器。这四个文档的出现，并不是因为“四”是最优解，只是碰巧在第四个的时候停下了。有时候，作者也怀疑：是不是只是在“扮演程序员”？就像小朋友玩“过家家”，假装“这个文档是架构”、“这个过程是正式流程”、“我们好像知道自己在干什么”。但结果是真实的——软件能编译、能运行、有人在用。或许，这种“假装”本身就是关键？也许，所谓的方法论，本质上就是一种“大家共同相信的虚构”，恰好能产出结果。四份文档的简要介绍：在AI时代中的“时间扭曲” Protocollie开发的第一个星期天，作者体验到了一种全新的工作方式。他一边喝咖啡、一边随手测试Claude生成的代码，确认能运行就提交，再说一句“现在帮我写服务器UI”，然后离开。吃早饭的时候，Claude在写代码。陪孩子玩的时候，Claude在写代码。看电视的时候，Claude还在写代码。每隔一小时回来检查五分钟，提一句反馈，“记住上次连接的服务器”，再继续日常生活。这就像是拥有了一个勤奋、专注、永不走神的初级程序员，对方每分钟能输出上万字，永远不会分心刷推特。整个星期天，作者真正“工作的时间”可能不到90分钟，其余时间都是Claude在工作，而自己只是偶尔出现做决策，或者测试一下。这种“时间扭曲”打破了作者对工作的所有认知模型：有时候，这甚至让人感到内疚。好像在“作弊”。仿佛某位Hacker News上的老手随时会跳出来说：“请停止边做煎饼边开发软件，这不合规，请回到你应有的挣扎中去。” 关于“扔意大利面” 作者最近向一位朋友比喻说，AI开发现在还处于“往墙上扔意大利面”的阶段。对方纠正说：“你是说看哪根粘住吧？”“不，”作者说，“重点根本不是粘住与否，重点是‘扔’的动作。” 每个怪异的流程、每次失败的尝试、每个“不该成功但它成功了”的时刻，都是我们这个时代共同实验的“数据点”。作者的“四文档系统”只是那些恰好组成一个可以辨认图案的面条组合。明天它也许就会滑下墙面——没关系，到时候再扔。 “编程”到底意味着什么？作者从HTML手工排表的时代一路走来，亲历了每一波技术抽象的演进：从汇编到C，从C到Java，从Java到Ruby，再到如今的“我说出想法，它就实现”。但这次的变化，不只是又一层抽象，它是完全不同的东西。 Protocollie的构建过程中，作者既不是在“编程”，也不是“非编程”。他甚至不知道该怎么定义这个行为。今天的核心技能，已经不是语法、算法，甚至不是系统设计了。而是类似于：“具象的渴望”、“精确的想象”、“结构化的愿望”。四份文档，变成了哲学反思回头看，作者意识到这些文档本质上不是技术文档，而是关于记忆与遗忘的哲学产物：也许所有的文档，本质上都是写给未来那个迷茫的自己的留言。不确定的高原期所有人又变成了“初级程序员”。但不是传统意义上“终有一天会变资深”的那种，而是一种永久性的初级状态——技术的演化速度，远快于经验的积累速度。就像在一片物理法则不断变化的海洋上冲浪。刚学会了浪怎么起，它就开始横着来、倒着走，甚至变成了飞鸟。对于某些人来说，这是恐惧；而对另一些人，则是解放。接下来会怎样？没人知道。作者也不确定下周会做什么、怎么做、还会不会用文档，甚至怀疑现在的这些系统是否还有意义。但这种不确定性，作者已经学会接受——甚至喜欢上了。在这个时代，每个开发者同时都是专家（对自己那套怪流程）也是新手（对下一波变化）。四天能完成原本需要数月的工作。最重要的能力，变成了**“清晰表达自己的想法给一个比你还快的打字手”**。作者的四份文档，不是标准，不是模板，只是过去某个星期的化石。已经过时，已经开始令人怀念。正是这种感觉，让此刻变得如此充满电流：人们在退潮的海滩上建起一座座沙堡，知道海水终将归来。但此时此刻，他们正兴高采烈地创造着属于这一刻的软件。明天，也许有人会发明“三文档系统”。或“五文档系统”。甚至完全不写文档，只靠愿望。而这些可能……也会起作用。那四份文档？现在已公开在GitHub上了。不是范式，也不是手册，更像是考古学材料：“2025年的某个星期，有人曾这样干过一次。” 读一读也好。看着困惑也好。然后丢开，走自己的路。它们不是指南，只是一个佐证：某种做法，曾经奏效过。就像远足时看到的别人的路标——知道有人走过这条路很有帮助，但以为这就是自己的路，可能就错了。

Meta公司的“44人名单”近日遭到泄露

Posted on July 21, 2025 by aitrendtrackers@rengongzhineng.io

Meta公司的“44人名单”近日遭到泄露，引发了科技行业内广泛关注与讨论。这份名单被认为是科技史上最为大胆的一次AI人才收购行动，由Meta首席执行官马克·扎克伯格亲自挑选，囊括了来自OpenAI、DeepMind、Apple、Anthropic等顶尖实验室的多位人工智能领域的核心研究人员。该团队被视为Meta打造通用人工智能（AGI）计划的核心力量，标志着其正积极挑战OpenAI与Google DeepMind在AI领域的领先地位。 “44人名单”指的是什么？该术语目前主要流传于行业内部，指的是一份非官方但广泛传播的文档，列出了Meta超级智能实验室（Superintelligence Labs）团队的44位核心成员。名单的流出始于多位OpenAI等公司的知名研究人员相继辞职，而Meta随后宣布组建统一的超级智能实验室，引发了业界对于人才流动与AI战略格局的高度关注。尽管Meta尚未正式发布这份名单，外泄信息显示出以下几个关键特征：该名单被业内普遍视为Meta在AI人才争夺战中的宣战书。团队成员有哪些人？目前部分成员身份已经被路透社、Business Insider、《连线》杂志和《金融快报》等媒体确认或公开报道，包括但不限于：尽管完整名单尚未公开，但已有约20至25位成员被各大权威媒体所证实。名单的国际组成与“华人主导”的关注点名单中一个备受关注的焦点是成员背景的国际化。其中约50%具有华裔血统，尽管大多数成员受教育于美国与欧洲，这一结构已引起美国政界与监管机构的关注。在Meta加大海外数据中心建设投入、不断扩大其在全球AI影响力的背景下，该团队的构成被赋予更多地缘政治意味。与此同时，该名单中仅包含两位印度裔成员（Trapit Bansal和Hammad Syed），尽管印度长期以来是AI人才的重要输出国。高额薪酬与人才争夺战Meta方面虽否认部分极端说法，但多位业内人士透露，一些参与OpenAI核心架构研发的工程师确实获得了九位数的待遇。某份内部流出文件显示： “超级智能实验室的一般研究员年薪在1000万美元至6000万美元之间，核心成员的薪酬则更高。” 如此惊人的薪酬结构引发了对“AI人才外流”的激烈讨论，尤其是OpenAI、Apple与Google在人才保留方面的压力正在持续加剧。这份名单为何至关重要？ Meta超级智能团队核心数据一览：指标数据/估算成员总数 44人华裔成员比例 50% 前OpenAI成员比例 40% 博士学历占比约75% 平均薪酬范围 1000万至6000万美元印度裔成员人数 2人（Trapit Bansal与Hammad Syed）研究重点大型语言模型、多模态系统、强化学习、推理能力已公开确认成员约20至25人 Meta的“44人名单”不仅是一份技术人员列表，更是AI格局深刻重构的象征，其背后的战略意图、全球布局与人才战术正深刻影响着人工智能的未来走向。

OpenAI开发的一款实验性大型语言模型（LLM），在2025年国际数学奥林匹克竞赛（IMO）中达到了金牌水平

Posted on July 21, 2025 by aitrendtrackers@rengongzhineng.io

由OpenAI开发的一款实验性大型语言模型（LLM），在2025年国际数学奥林匹克竞赛（IMO）中达到了金牌水平，标志着人工智能推理能力的又一重要里程碑。 OpenAI研究员Alexander Wei在社交平台X上宣布了这一成果。他表示：“OpenAI最新的实验性推理语言模型，已实现了人工智能领域长期以来的一大挑战：在世界最具声望的数学竞赛——国际数学奥林匹克中取得金牌水平的表现。” 据介绍，该模型的评估完全按照人类参赛者的标准进行，包括两场各4.5小时的测试、不允许使用工具或连接互联网，并且需要针对IMO官方试题书写详细证明过程。最终，该模型成功解答了6道题中的5道，获得了42分中的35分。每道题由三位前IMO金牌得主独立评分，最终成绩在一致认同下确定。 IMO竞赛题目被广泛认为是竞赛数学领域中最具挑战性的题目，往往需要参赛者进行长时间、极具创造性的推理。对此，Wei指出，这是AI在推理基准测试上逐步取得突破的延续：“从GSM8K（人类大约0.1分钟解答）→ MATH基准（1分钟）→ AIME（10分钟）→ IMO（100分钟），我们已经走了很长一段路。” 他进一步指出，IMO题目的难度要求模型具备前所未有的持续创造性思维能力，该成果也反映出“通用强化学习与测试时计算扩展”方面的进展。尽管取得了突破性的表现，该模型在短期内不会向公众开放。Wei表示：“这款获得IMO金牌的LLM是一个实验性研究模型，近期内不会发布任何具备这种数学能力的系统，至少还需几个月时间。” 与此并行，OpenAI计划很快推出GPT-5，但IMO竞赛能力模型属于另一个研究方向。“GPT-5即将发布，我们对此感到非常兴奋。”Wei透露。与此同时，Hyperbolic Labs联合创始人Yuchen Jin也在X上暗示，GPT-5的发布可能已经迫在眉睫。据他透露，GPT-5并非单一模型，而是由多个专用模型构成的系统，并配备有一个动态路由器，可以根据任务在擅长推理、非推理以及工具使用的模型间智能切换。 Jin指出，这种架构可能正是OpenAI首席执行官Sam Altman此前所说的“修正模型命名”的原因，因为用户将无需手动选择具体模型，系统会自动将提示指向最合适的模型。此外，Jin还透露，GPT-6目前已经进入训练阶段，并希望该过程不会因为更多的安全测试而被延迟。 Wei也提及了此次突破的更深层意义：“这进一步说明AI在近年发展速度之快。2021年，导师Jacob Steinhardt让我预测到2025年7月AI在数学上的进展，当时我预测的是MATH基准的正确率达到30%……而如今，我们已经实现了IMO金牌。” 在这一成果背后，Sheryl Hsu、Noam Brown等研究人员也被特别提及并给予了高度评价。而在去年，谷歌DeepMind旗下的AlphaProof与AlphaGeometry 2也曾在国际数学奥林匹克中解出6题中的4题，获得相当于银牌选手的得分，显示出AI数学能力正在多个维度快速提升。

Meta斥资150亿美元打造“超级智能实验室”，引发硅谷史上最昂贵的AI人才争夺战

Posted on July 17, 2025July 17, 2025 by aitrendtrackers@rengongzhineng.io

Meta创办人马克·扎克伯格（Mark Zuckerberg）以大胆下注、力图重塑整个产业而著称，尽管这种策略有时也以高昂代价告终。继元宇宙计划耗资460亿美元却收效甚微后，这位科技巨头如今再度加码，押注人工智能中的终极目标——“超级智能”（Superintelligence）。这一次，风险更高，竞争更激烈，潜在回报更具颠覆性。扎克伯格的AI押注，不仅远超元宇宙时期的资金投入，更以九位数薪酬和基础设施投资，掀起了硅谷有史以来最昂贵的人才争夺战。这场战役最终可能确立Meta在AI时代的霸主地位，也可能成为另一个野心勃勃却误入歧途的反面教材。 Meta超级智能实验室的诞生 Meta超级智能实验室（Meta Superintelligence Labs）的成立，标志着这家社交媒体巨头战略方向的重大转变。在接受《The Information》旗下TITV直播专访时，扎克伯格透露：“今年最令人兴奋的事情，是我们开始看到模型具备自我改进的初步迹象——这意味着超级智能的实现已在视野之内。” 为此，Meta重组整个AI部门，目标是实现“为全球每一个人提供个人超级智能”（Personal Superintelligence）。这一实验室的创立也被视为对过去内部AI团队低效管理、员工流失与产品反响平平等问题的回应。扎克伯格选择彻底改革而非渐进优化，不仅从外部引入领导力量，也重新定义了公司研发AI的方式。硅谷最昂贵的人才战？ Meta的超级智能愿景，以极具冲击力的人才战略为核心。为组建这一实验室，扎克伯格开启了一轮史无前例的高薪挖角行动，向来自OpenAI、Google、Apple和Anthropic等公司的顶尖研究员，开出高达一亿美元以上的薪酬。在面对有关1至2亿美元年薪的传闻时，扎克伯格并未直接否认，而是表示：“虽然具体数字未必准确，但这是一个极为火热的市场……顶尖研究员的数量很少，各家实验室都在争抢。” Meta不仅靠高薪吸引人才，扎克伯格强调：“我们基本为每位研究员提供最强的计算资源，这不仅利于工作开展，也是吸引人才的关键优势。”这一策略凸显出超级智能竞赛中，“人才密度”比团队规模更为关键。亚历山大·王：价值143亿美元的赌注 Meta人才战略的核心，是对AI初创公司Scale AI的巨额投资。今年6月，Meta以143亿美元取得该公司49%股份，并将其创办人亚历山大·王（Alexandr Wang）及其核心团队纳入Meta高层。年仅28岁的王，如今已担任Meta首席AI官，主导“Meta超级智能实验室”的整体工作。他带领十余位新聘研究员、Scale的多位副手，以及GitHub前CEO纳特·弗里德曼（Nat Friedman）组成新领导层。这支团队与Meta主力团队分开办公，办公室靠近扎克伯格本人，显示该项目在公司战略中的核心地位。哲学转向：从开源走向闭源？最引人注目的变化之一，是Meta可能放弃其长期坚持的开源哲学。据悉，王及实验室核心成员上周曾讨论，是否应放弃开源模型“Behemoth”，转而开发闭源模型。这将是Meta在AI路线上的重大转折。过去数年，该公司一直倡导开源，认为让更多开发者参与其中，能加快技术演进并促进公平访问。此次转变反映出Meta对竞争格局的担忧。目前，“Behemoth”模型已完成训练数据输入，但由于内部性能表现不佳，尚未发布。这一挫折促使高层重新评估开源策略。基础设施：下一场竞争的护城河除了人才争夺，Meta也在基础设施建设上加大投入，力求支撑超级智能的研发需求。扎克伯格透露，公司正在建设多个“多吉瓦级”的数据中心，甚至使用“防风雨帐篷”以加速施工。其中“Hyperion”数据中心未来规模将达五吉瓦，场地面积堪比整个曼哈顿城区。如此庞大的投资得益于Meta稳健的现金流，扎克伯格表示：“这些项目完全可由公司的自由现金流支持。” 个人超级智能：与众不同的愿景与其他实验室致力于“自动化社会中所有经济活动”不同，Meta的愿景聚焦于“个人生活的意义”，包括关系、文化、创意与乐趣。扎克伯格在专访中表示：“我们关心的是如何用AI来帮助人们更好地享受生活。”这一理念与Meta的硬件布局——尤其是AR眼镜项目——紧密相关。他甚至预测：“未来没有AI眼镜，你将处于认知劣势。”并设想AI伴侣将“观察用户生活，主动提醒与跟进事务。” 产业影响与竞争动态 Meta的超级智能行动，对整个行业已产生重大影响。其高薪策略带来了AI领域的薪资膨胀，迫使其他公司提高报酬以留住核心人才。在提及与竞争对手在Sun Valley峰会的互动时，扎克伯格虽强调“我们并未有意针对任何人”，但业内普遍认为，这实际上是一场零和博弈：争夺有限的顶尖AI研究员。 Meta转向闭源的可能性，也预示着行业整体将更加倾向于专有开发，放弃“开源共享”式的协作路径。总结：Meta的决定性时刻 Meta的超级智能计划，代表着对公司未来发展方向的全面重塑。继元宇宙失利后，扎克伯格再次押上重金，这次的投入预计将在未来数年内超过1000亿美元。 Meta超级智能实验室的成败，将不仅影响公司自身命运，也将左右整个AI产业的走向。随着内部部分未入选王团队的员工表达跳槽意愿，项目的成败已不容小觑。扎克伯格的这场豪赌能否兑现技术突破，尚未可知。但毫无疑问，硅谷史上最昂贵的一场人才争夺战，已经打响。

大型语言模型的白日梦循环

Posted on July 17, 2025July 17, 2025 by aitrendtrackers@rengongzhineng.io

尽管大型语言模型已经展现出令人惊叹的能力，但至今尚未取得真正意义上的突破性发现。这引发了一个耐人寻味的疑问：为什么会这样？有一种可能的解释是，这类模型缺乏人类思维的一些根本特征：它们是静态的，无法从经验中持续学习，也没有类似人脑“默认模式网络”（Default Mode Network, DMN）那样的后台处理机制——而这恰恰是人类灵感和顿悟的重要来源之一。为了应对这一局限，有研究者提出了一种称为“白日梦循环”（Day-Dreaming Loop, DDL）的设想。这是一种在背景中运行的过程，持续地从模型的记忆中抽取两个概念的组合，由生成模型探索它们之间非显而易见的联系，再由评估模型筛选出具有真正价值的创见。这些被识别出的想法将被重新注入系统的记忆中，形成一种复利式的反馈机制：新生成的想法又成为未来概念组合的种子。不过，这一机制所需的代价——即所谓的“白日梦税”（daydreaming tax）——可能非常高昂，因为从大量组合中发现有价值的新颖点的命中率极低。然而，这种“浪费”可能正是创新的必要代价。同时，这也为模型蒸馏（model distillation）设置了障碍，因为白日梦机制所产生的洞见往往是无人会主动提出的问题。从战略角度来看，这一结论具有反直觉的意味：为了让 AI 对终端用户来说更加高效且低成本，或许必须先建构那些大多数算力都用于无用搜索的“昂贵系统”。未来，可能会出现一类专用于生成专有训练数据的高成本白日梦型 AI，而真正面向大众的，是继承其成果的高效、小型模型。这种路径，可能为穿越即将到来的“数据壁垒”提供一条出路。美国作家威廉·费菲尔德（William Fifield）在1964年的一篇综合访谈中，曾引用毕加索的一句话作为回应当时兴起的“电子大脑”现象：“但它们没用。它们只能给出答案。”这句话意味深长，似乎也道出了当前 LLM 研究的瓶颈。在播客主持人帕特尔（Dwarkesh Patel）看来，至今尚未有任何大型语言模型展现出真正出人意料的突破性洞察，哪怕它们具备极高的知识密度和测试分数。这是一个真正的谜题——因为在提示适当时，这些模型似乎能以令人振奋的方式整合信息，几乎接近“洞察”的边缘，但始终未能跨越那一关键点。究竟缺少了什么？有两项关键的“缺失能力”被认为是原因之一：一、持续学习（Continual Learning）当前主流 LLM 都是冻结状态的神经网络（frozen NNs），即在部署后不再发生参数更新。这意味着它们无法进行动态的再训练，也无法从新的经验中获得反馈。尽管“动态评估”（dynamic evaluation）等技术早已存在并可用于在线学习，但主流 LLM 并未采用。因此，它们常常困在自身的“先验”知识中，无法摆脱初始猜测和显而易见的答案。人类历史中从未有任何一个患有顺行性遗忘症（anterograde amnesia）的人能创造出重大创新，而 LLM 恰恰面临类似状况。二、持续思考（Continual Thinking）另一项区别则是人类研究者从不停止思考。人脑即使在睡眠中，也在不断处理信息，这部分解释了为何大脑在静息状态下也消耗大量能量。科学与创造力研究强调时间与睡眠在激发“孵化效应”（incubation effect）方面的重要性。人类的灵感往往并非出现在主动思考时，而是在放松或“放空”时突然出现。这种“涌现思维”的例子数不胜数：从过时的冷笑话到错过的暗示，从突如其来的焦虑想法到意外的灵感闪现。这些思维的爆发往往是无意识且不可预测的，与当前所专注的任务毫无关联。例如，一位作者正在撰写游戏美学的文章时，突发灵感想到了“LLM 的默认模式网络应该是什么样子”这一问题，从而催生了这篇设想。假设：白日梦循环机制（Day-Dreaming Loop）那么，这种思维过程是如何、何时、何地发生的？显然，它并非发生在显意识中，且通常是在无意间发生的。这是一种普遍现象，并不易耗尽：即便历经几十年，许多人仍然定期体验到这些突发念头。它可能是生物学上昂贵的过程，因为其本质涉及复杂的计算和神经资源消耗。推测多数动物并不具备类似“灵光一现”的能力。其机制可能是并行的，因为人脑可能同时在多个神经通路中进行概念组合。它可能部分与海马体在睡眠中进行的记忆重播过程相关，但又不完全等同，因为白日梦式的思考也常发生在醒着时处理短期记忆的过程中。此外，它可能被集中注意力的任务所抑制。例如，研究者发现，在专注阅读或编码时，这种突发想法几乎停止；而一旦暂停，灵感就如潮水般涌来。因此提出了“白日梦循环”这一模型：人脑在空闲时随机提取两个记忆片段进行组合，并对结果进行评估，若认为“有趣”，便晋升为显意识，甚至可能写入长期记忆。这一机制虽然简单，却可能是人类创新的核心引擎。研究者指出，不需要复杂的高阶组合就能实现持续创新，因为一旦新的组合进入知识库，它就会生成更多潜在的新组合。在经济创新模型中，查尔斯·琼斯（Charles I. Jones, 2021）也曾展示，即使“低垂果实”被优先采摘，创新仍然可以持续增长，甚至呈指数爆炸。不过，该机制也极为浪费，大多数组合毫无价值，难以优化。由于人脑会随时间改变，过去被判断为无趣的组合在将来可能变得有价值，因此也必须反复检查。 LLM…

Subscribe 订阅