OpenAI再下一城!据路透社报道,这家AI巨头已与GPU云计算公司CoreWeave达成一项5年期、119亿美元的天价合作协议。这不仅是OpenAI在计算资源上的一大步,更是在与微软的“暧昧竞争”中布下的一步高手级棋局。 CoreWeave:从“微软专供”到OpenAI的座上宾 本次协议的亮点之一,是OpenAI直接拿下CoreWeave 3.5亿美元的股权,而且这部分投资与CoreWeave即将进行的IPO完全独立。 值得一提的是,CoreWeave的最大客户原本是微软。在2024年,微软贡献了CoreWeave62%的收入,使其年营收飙升至19亿美元(2023年仅为2.29亿美元,一年暴增近8倍)。如今,OpenAI正式入局,CoreWeave不仅新增了一位超大客户,还有效降低了单一客户依赖带来的IPO投资风险。 CoreWeave拥有Nvidia 6%股权支持,其AI云业务遍布32个数据中心,截至2024年底运行着超过25万张Nvidia GPU,包括最新的Blackwell系列。可以说,这家公司掌控着AI算力的命脉,而OpenAI选择下注,显然是为了确保未来不再因算力短缺而受制于人。 OpenAI & 微软:友谊小船说翻就翻? 这笔交易的另一个看点,是它与微软和OpenAI之间日益紧张的关系息息相关。 微软作为OpenAI的大金主,已经投入了140亿美元,并有权分享OpenAI的一部分收入。然而,随着OpenAI的崛起,双方的竞争关系日益显现。OpenAI不仅争夺企业级客户,还计划推出高端AI代理,与微软展开直接竞争。 回顾过去几个月,微软已经开始去OpenAI化: 这场AI军备竞赛已经打响,CoreWeave的加入,无疑让OpenAI多了一张强力王牌。 CoreWeave:从挖矿到IPO,华丽转身 CoreWeave的故事本身就足够戏剧性。这家公司最早是加密货币挖矿公司,由前对冲基金从业者创办。如今,它已完成华丽转型,成为AI时代最炙手可热的云计算玩家。 如果一切顺利,这场从GPU挖矿到AI淘金的狂欢,将让CoreWeave的创始人们继续在资本市场“印钞”。 未来走向:OpenAI vs 微软,全面开战? 从这笔交易来看,OpenAI已经不再满足于微软的资源,而是直接投资自己的GPU云计算提供商,彻底掌握算力命脉。未来,OpenAI可能会: 至于微软,它也不会坐以待毙——自主AI模型、收购人才、拓展云计算合作,多线并行,全面应对OpenAI的独立化进程。 这不仅是AI巨头们的较量,更是一场关于AI算力、数据、市场份额的终极博弈。CoreWeave的这步棋,可能只是开局,但AI战场上的真正较量,才刚刚开始。
伦敦国王学院(King’s College London)和艾伦图灵研究所(The Alan Turing Institute)的研究团队推出了一种全新的自蒸馏框架——CODI
大语言模型(LLM)的推理能力再迎重大突破!来自伦敦国王学院(King’s College London)和艾伦图灵研究所(The Alan Turing Institute)的研究团队推出了一种全新的自蒸馏框架——CODI(Continuous Chain-of-Thought via Self-Distillation),可以让LLM在不显式生成推理步骤的情况下,依然具备强大的逻辑推理能力。 大模型推理的难题:显式 vs. 隐式 CoT Chain-of-Thought(CoT)提示工程已经被证明是提升LLM逻辑推理能力的有效方法,它能让模型按步骤拆解问题,进行层层推理。然而,CoT主要依赖自然语言来表达推理过程,而研究表明,人类的数学推理其实并不完全依赖语言,这意味着可能存在更高效的推理方式。 目前,LLM在推理时主要面临以下挑战: 一些方法(如Coconut)尝试用课程学习(Curriculum Learning)来逐步引导模型内化推理步骤,但仍然存在误差传播和遗忘问题,导致效果不理想。因此,如何在保证推理能力的同时,减少计算开销,成为了研究的关键。 CODI:用自蒸馏让AI“内化”推理过程 为了解决这个问题,研究团队提出了CODI框架,它的核心思想是: CODI的关键机制: 相比于传统方法,CODI无需多阶段训练,通过单步蒸馏就能让模型获得推理能力,避免了课程学习方法中的信息遗失和遗忘问题。 实验结果:推理更强,速度更快 研究团队在数学推理任务上测试了CODI,结果令人惊喜: 此外,CODI还能在跨领域任务(如SVAMP和MultiArith数据集)上取得更好的泛化能力,说明它不仅能在数学推理中生效,还能扩展到更广泛的逻辑推理任务。 未来展望:CODI如何改变AI推理? CODI的出现,标志着隐式CoT推理终于追上了显式CoT,同时也让推理更加高效。相比传统方法,它的优势在于: 未来,CODI可能会被应用到更复杂的多模态推理任务,比如: 总结CODI通过自蒸馏+隐式推理,成功让大模型推理速度更快、计算更高效,并首次让隐式CoT达到显式CoT的推理能力。这一突破,不仅让LLM在数学推理任务上表现更优,也为未来的AI推理技术提供了新的方向。未来,CODI有望在更复杂的推理场景中发挥巨大作用,让AI真正迈向高效、精准、可扩展的推理时代!
微软与Ubiquant的研究团队带来了一款全新的基于规则的强化学习框架——Logic-RL
微软与Ubiquant的研究团队又有新突破!这次他们带来了一款全新的基于规则的强化学习框架——Logic-RL,能够通过训练逻辑谜题,自然习得类似DeepSeek-R1的推理模式,让大模型的逻辑能力更上一层楼。 大模型的推理能力,还能怎么提升? 近年来,大语言模型(LLM)在后训练阶段取得了巨大进展,比如DeepSeek-R1、Kimi-K1.5和OpenAI-o1,它们的推理能力越来越强。然而,DeepSeek-R1虽然开放了模型权重,但却没有提供训练代码和数据集细节,这让人们对如何在小模型上扩展推理能力、如何构建最佳训练数据结构、以及如何可靠地复现推理方法充满疑问。 传统数学数据集(如GSM8K、Omini-MATH)在难度和逻辑深度上不够稳定,导致实验控制变得困难。因此,研究人员开始意识到,需要针对性的数据集,能够控制复杂度,以便更好地研究推理能力的涌现现象。 目前,大模型推理能力的提升主要依赖以下技术: 这些方法不断推动模型推理能力的进化,而Logic-RL正是基于RL的一项重大突破。 Logic-RL:如何让AI像人一样解逻辑题? 微软和Ubiquant团队开发的Logic-RL,是一种基于规则的强化学习(RL)框架,能让模型通过逻辑训练习得类似DeepSeek-R1的推理能力。 它采用REINFORCE++算法,并参考了DeepSeek-R1的奖励机制进行后训练。随着训练的深入,模型会自动分配更多计算步骤给推理,让生成的token数量从几百扩展到上千,从而形成更深入的思考过程。 实验数据令人惊喜: 然而,研究过程中也遇到了一些有趣的挑战。例如,Qwen2.5-Math-7B的格式问题,它在训练过程中总是喜欢输出Python代码块,而不是严格按照格式要求生成答案。此外,研究团队对比测试了Qwen2.5-7B-Base和Qwen2.5-7B-Instruct,结果发现两者在RL训练时的表现几乎一致,包括验证准确率、响应长度增长曲线和奖励曲线。 REINFORCE++ vs PPO vs GRPO:谁才是最优解? 实验还对比了三种强化学习算法在推理任务上的表现: 此外,该模型在超出分布(Super OOD)泛化能力上的表现也非常亮眼,AIME数据集上提升125%,AMC数据集上提升38%,表明强化学习不仅能提升模型在训练数据上的表现,还能帮助它形成可迁移的推理策略,适应更复杂的问题。 这项研究的意义? Logic-RL证明了基于规则的强化学习框架能够培养复杂推理能力,这对AI的发展至关重要。然而,研究人员也意识到,当前的研究基于相对小规模的逻辑数据集,这可能会限制其在真实数学或编程任务中的适用性。因此,未来的研究方向可能包括: 总的来说,Logic-RL为AI推理能力的进化提供了一条新路径,或许未来的LLM不仅能解数学题,还能像人一样推理和思考!
谷歌AI最新发布的可微分逻辑元胞自动机(DiffLogic CA)
谷歌AI又放大招了!最新发布的可微分逻辑元胞自动机(DiffLogic CA),带来了一种全新的神经元胞自动机(NCA)训练方式,让复杂模式的学习和生成更加智能化。 几十年来,研究人员一直在试图破解元胞自动机中的“涌现行为”——也就是用简单规则推导出复杂现象。传统的方法是自底向上的,先定义局部规则,然后观察会生成什么样的模式。而谷歌研究团队反其道而行之,提出了一种完全可微分的方法:让系统自己学习需要哪些局部规则,才能生成指定的复杂模式,同时仍然保持元胞自动机的离散特性。这不仅让规则的发现过程变得更加自动化,而且更具可扩展性。 在此之前,学界已经尝试使用非微分方法来学习转换规则,也研究过如何让一维元胞自动机变得可微分,从而使用梯度优化来学习规则。如今,DiffLogic CA在这些研究的基础上更进一步,打破了手工设计规则和自动学习计算模型之间的壁垒。 DiffLogic CA 到底是啥? 谷歌的研究团队提出了一种新颖的可微分逻辑门方法,成功让元胞自动机“学会”康威生命游戏(Conway’s Game of Life)的规则,并通过学习到的离散动态生成复杂模式。这个方法结合了两大核心技术: DiffLogic CA 的核心思想,就是融合这两种技术,让可学习的局部逻辑计算成为可能,最终推动可编程物质的发展。 它是怎么运作的? NCA的基本思想是,将经典的元胞自动机和深度学习结合,通过可学习的更新规则实现自组织行为。传统方法依赖昂贵的矩阵运算,而NCA则用梯度下降来优化交互方式,同时保持局部性和并行性。它的运行方式如下: DiffLogic CA 在此基础上进行了重大改进,它用逻辑门替换了神经元,使系统可以通过连续松弛来学习离散运算。这意味着,元胞的状态不再是由传统神经网络计算得出,而是由逻辑门电路决定。这样一来,模型不仅更具可解释性,计算效率也得到了大幅提升。 复刻康威生命游戏,表现如何? 康威生命游戏诞生于1970年,是最经典的元胞自动机之一,它用极其简单的规则,展现出了丰富的复杂性。谷歌团队用 DiffLogic CA 训练了一套模型,让它在512种不同的3×3网格上学习生命游戏的规则。 这项研究的意义? DiffLogic CA 提供了一种全新的 NCA 结构,使用二进制状态和循环逻辑电路进行计算,并通过可微分逻辑网络训练逻辑门,使计算更加高效和透明。相比于传统 NCA,DiffLogic CA 不仅计算成本更低,还增强了可解释性。 未来的优化方向可能包括: 这一研究表明,可微分逻辑门+NCA的结合,或许能在可编程物质领域打开新的大门,让计算变得更加高效,同时更适用于复杂的模式生成任务。
微软正在加速自家AI技术的布局
微软正在加速自家AI技术的布局,试图在与长期合作伙伴OpenAI的竞争中占据一席之地。据悉,该公司正在研发强大的AI模型,并积极寻找替代方案,以驱动Copilot等产品的运行。 根据《The Information》报道,微软已经打造出与OpenAI的o1和o3-mini类似的AI“推理”模型。然而,OpenAI拒绝向微软提供关于o1运作方式的技术细节,这无疑加剧了双方的紧张关系。此外,彭博社爆料称,微软正在开发一款名为MAI的模型家族,性能可媲美OpenAI的产品,并计划在今年晚些时候通过API对外开放。 与此同时,微软也没有把鸡蛋放在一个篮子里。据悉,该公司正在测试来自xAI、Meta、Anthropic和DeepSeek的AI模型,考虑是否可以用它们替代Copilot中依赖的OpenAI技术。此外,微软为了稳住AI战局,已投入约140亿美元给OpenAI,并重磅挖来了DeepMind和Inflection的联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman),负责整体AI战略布局。
Opera 推出“Browser Operator”AI 代理,浏览器变身智能助手!
Opera 最近发布了一款名为 “Browser Operator” 的本地 AI 代理,它能够直接在浏览器内执行各种任务,比如自动购买商品、填写在线表单,甚至收集网页内容——让用户彻底摆脱繁琐的重复操作。 与传统的 AI 助手不同,Browser Operator 不是一个独立的工具,而是浏览器本身的延伸,直接集成在 Opera 浏览器内运行。更重要的是,它所有的任务处理 完全本地化,不依赖云端服务器,因此用户的敏感数据不会被传输到第三方,隐私安全性大幅提升。 如何运作?让 AI 直接帮你买袜子! Opera 官方演示了一个有趣的应用场景——买袜子。过去,用户需要手动浏览电商网站、挑选商品、填写地址、输入支付信息。而现在,用户只需给 Browser Operator 下达指令,AI 便能自动完成整个购物流程。甚至在填写支付信息等关键步骤时,AI 也会暂停,确保用户确认无误后再继续执行。 核心驱动力 来自 Opera 自研的 AI Composer Engine,这款引擎让 Browser Operator 能够理解用户的自然语言指令,并在浏览器内直接执行相应操作。而且,整个过程 透明可控,用户可以随时介入、更改或撤销 AI 的操作,比如取消订单、调整填写内容等。 比其他 AI 工具更强在哪? 目前,许多 AI 助手依赖截图或视频录制来“观看”网页内容,但 Opera 采用的是 DOM(文档对象模型)和浏览器布局数据,即网页的文本结构,而非屏幕像素。这一技术差异带来了三大优势: 浏览器进化:从工具到智能助手 凭借 Browser Operator,Opera 正在让浏览器从一个单纯的互联网访问工具,升级为能主动 提升生产力的 AI 代理。未来,浏览器或许不再只是一个用来上网的窗口,而是一个能够主动帮助用户处理事务的智能助手。…
QwQ-32B:强化学习的力量正在崛起!
Qwen 团队近日正式推出 QwQ-32B,这款拥有 320 亿参数的 AI 模型,在推理能力上竟然能媲美 DeepSeek-R1——这款庞然大物拥有 6710 亿参数(其中 370 亿被激活)。这一成就充分展示了强化学习(RL)的强大潜力,尤其是在大规模基础模型的智能进化过程中,RL 的作用正在逐步显现。 研究表明,相较于传统的预训练和后训练方法,强化学习的扩展不仅能优化模型性能,还能极大地提升其推理能力。例如,DeepSeek R1 通过冷启动数据和多阶段训练,成功实现了深度思考和复杂推理能力。而 QwQ-32B 也采用类似策略,并在此基础上进一步整合了智能代理(agent)功能,使其能够结合工具、接收环境反馈并进行动态调整。换句话说,这不仅仅是强化学习的胜利,更是迈向通用人工智能(AGI)的重要一步。 性能表现如何? QwQ-32B 在多个基准测试中展现了卓越的数学推理、代码能力和通用问题解决能力,并与 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1 进行了对比。 值得注意的是,QwQ-32B 采用了全新的 RL 训练策略: 如何使用 QwQ-32B? 想要上手 QwQ-32B?好消息是,这款模型已在 Hugging Face 和 ModelScope 上开放权重,使用 Apache 2.0 许可证。此外,用户还可以通过 Qwen Chat 直接访问它。 Hugging Face Transformers 示例代码 Alibaba Cloud DashScope API 示例 如果用户希望通过 API…
OpenAI 可能计划推出一系列专门的 AI “智能代理”(agents)
据《The Information》报道,OpenAI 可能计划推出一系列专门的 AI “智能代理”(agents),其中最贵的一款订阅费高达每月 2 万美元。 报道称,这些 AI 代理将针对不同领域提供定制化服务,比如销售线索筛选与排序、软件开发等。其中,一款专为“高收入知识工作者”打造的代理预计收费 2000 美元/月,而面向软件工程师的版本可能要价 1 万美元/月。至于传说中的“顶配版”——据称能够支持“博士级研究”的 AI 代理,价格则高达 2 万美元/月。 目前,这些 AI 代理的正式发布时间和具体适用客户仍然未知。不过,消息人士透露,OpenAI 投资方软银已经承诺今年在这些 AI 代理产品上砸下 30 亿美元,可见市场需求相当可观。 对 OpenAI 来说,这笔收入或许至关重要。毕竟,去年公司因运营成本和其他开支亏损近 50 亿美元,如今靠 AI 代理产品大赚一笔,或许是填补亏空的关键一步。
OpenAI 旗下的 AI 聊天机器人平台 ChatGPT 现在已经可以直接编辑代码
OpenAI 旗下的 AI 聊天机器人平台 ChatGPT 现在已经可以直接编辑代码了——不过,目前仅限 macOS 版本。 最新的 macOS 版 ChatGPT 应用已经能够直接在 Xcode、VS Code 和 JetBrains 等主流开发工具中进行代码编辑。用户还可以选择开启“自动应用”模式,让 ChatGPT 直接修改代码,无需额外点击确认。 ChatGPT Plus、Pro 和 Team 订阅用户可以在本周四更新 macOS 应用后体验这一新功能,而 OpenAI 表示,Enterprise、Edu 以及免费用户将在下周迎来这一功能的正式上线。 OpenAI 产品团队成员 Alexander Embiricos 在 X(前 Twitter)上发文称,Windows 版 ChatGPT 也将“很快”支持代码编辑功能。 这一新功能建立在 OpenAI 2024 年 11 月推出的“与应用协作”(Work with Apps)能力之上。该功能允许 macOS 版 ChatGPT 读取特定开发环境中的代码,减少开发者手动复制粘贴的需求。而现在,ChatGPT 直接修改代码的能力,让它成为 Cursor、GitHub Copilot…
谷歌联合创始人拉里·佩奇(Larry Page)正在悄悄打造一家名为 Dynatomics 的新公司
据《The Information》报道,谷歌联合创始人拉里·佩奇(Larry Page)正在悄悄打造一家名为 Dynatomics 的新公司,专注于将 AI 技术应用于产品制造领域。 据悉,佩奇正在与一小群工程师合作,研发 AI 技术,让其能够自动生成“高度优化”的物品设计,并由工厂直接生产成品。而这场低调的 AI 研发行动,则由克里斯·安德森(Chris Anderson)负责推进——他曾是佩奇投资的电动飞机初创公司 Kittyhawk 的首席技术官。 当然,佩奇并不是唯一一个盯上 AI+制造业的企业家,只不过他可能是最富有的那位。 比如,Orbital Materials 正在开发一款 AI 平台,致力于发现从电池到二氧化碳捕获单元等各种新材料;PhysicsX 则提供仿真工具,帮助汽车、航空航天和材料科学领域的工程师进行项目测试;此外,Instrumental 也在利用计算机视觉 AI 技术检测工厂生产过程中的异常情况。 显然,AI 在制造业的潜力正在被越来越多的企业家挖掘,而佩奇的 Dynatomics 将如何搅动这片蓝海,值得持续关注。