微软与Ubiquant的研究团队又有新突破!这次他们带来了一款全新的基于规则的强化学习框架——Logic-RL,能够通过训练逻辑谜题,自然习得类似DeepSeek-R1的推理模式,让大模型的逻辑能力更上一层楼。 大模型的推理能力,还能怎么提升? 近年来,大语言模型(LLM)在后训练阶段取得了巨大进展,比如DeepSeek-R1、Kimi-K1.5和OpenAI-o1,它们的推理能力越来越强。然而,DeepSeek-R1虽然开放了模型权重,但却没有提供训练代码和数据集细节,这让人们对如何在小模型上扩展推理能力、如何构建最佳训练数据结构、以及如何可靠地复现推理方法充满疑问。 传统数学数据集(如GSM8K、Omini-MATH)在难度和逻辑深度上不够稳定,导致实验控制变得困难。因此,研究人员开始意识到,需要针对性的数据集,能够控制复杂度,以便更好地研究推理能力的涌现现象。 目前,大模型推理能力的提升主要依赖以下技术: 这些方法不断推动模型推理能力的进化,而Logic-RL正是基于RL的一项重大突破。 Logic-RL:如何让AI像人一样解逻辑题? 微软和Ubiquant团队开发的Logic-RL,是一种基于规则的强化学习(RL)框架,能让模型通过逻辑训练习得类似DeepSeek-R1的推理能力。 它采用REINFORCE++算法,并参考了DeepSeek-R1的奖励机制进行后训练。随着训练的深入,模型会自动分配更多计算步骤给推理,让生成的token数量从几百扩展到上千,从而形成更深入的思考过程。 实验数据令人惊喜: 然而,研究过程中也遇到了一些有趣的挑战。例如,Qwen2.5-Math-7B的格式问题,它在训练过程中总是喜欢输出Python代码块,而不是严格按照格式要求生成答案。此外,研究团队对比测试了Qwen2.5-7B-Base和Qwen2.5-7B-Instruct,结果发现两者在RL训练时的表现几乎一致,包括验证准确率、响应长度增长曲线和奖励曲线。 REINFORCE++ vs PPO vs GRPO:谁才是最优解? 实验还对比了三种强化学习算法在推理任务上的表现: 此外,该模型在超出分布(Super OOD)泛化能力上的表现也非常亮眼,AIME数据集上提升125%,AMC数据集上提升38%,表明强化学习不仅能提升模型在训练数据上的表现,还能帮助它形成可迁移的推理策略,适应更复杂的问题。 这项研究的意义? Logic-RL证明了基于规则的强化学习框架能够培养复杂推理能力,这对AI的发展至关重要。然而,研究人员也意识到,当前的研究基于相对小规模的逻辑数据集,这可能会限制其在真实数学或编程任务中的适用性。因此,未来的研究方向可能包括: 总的来说,Logic-RL为AI推理能力的进化提供了一条新路径,或许未来的LLM不仅能解数学题,还能像人一样推理和思考!
谷歌AI最新发布的可微分逻辑元胞自动机(DiffLogic CA)
谷歌AI又放大招了!最新发布的可微分逻辑元胞自动机(DiffLogic CA),带来了一种全新的神经元胞自动机(NCA)训练方式,让复杂模式的学习和生成更加智能化。 几十年来,研究人员一直在试图破解元胞自动机中的“涌现行为”——也就是用简单规则推导出复杂现象。传统的方法是自底向上的,先定义局部规则,然后观察会生成什么样的模式。而谷歌研究团队反其道而行之,提出了一种完全可微分的方法:让系统自己学习需要哪些局部规则,才能生成指定的复杂模式,同时仍然保持元胞自动机的离散特性。这不仅让规则的发现过程变得更加自动化,而且更具可扩展性。 在此之前,学界已经尝试使用非微分方法来学习转换规则,也研究过如何让一维元胞自动机变得可微分,从而使用梯度优化来学习规则。如今,DiffLogic CA在这些研究的基础上更进一步,打破了手工设计规则和自动学习计算模型之间的壁垒。 DiffLogic CA 到底是啥? 谷歌的研究团队提出了一种新颖的可微分逻辑门方法,成功让元胞自动机“学会”康威生命游戏(Conway’s Game of Life)的规则,并通过学习到的离散动态生成复杂模式。这个方法结合了两大核心技术: DiffLogic CA 的核心思想,就是融合这两种技术,让可学习的局部逻辑计算成为可能,最终推动可编程物质的发展。 它是怎么运作的? NCA的基本思想是,将经典的元胞自动机和深度学习结合,通过可学习的更新规则实现自组织行为。传统方法依赖昂贵的矩阵运算,而NCA则用梯度下降来优化交互方式,同时保持局部性和并行性。它的运行方式如下: DiffLogic CA 在此基础上进行了重大改进,它用逻辑门替换了神经元,使系统可以通过连续松弛来学习离散运算。这意味着,元胞的状态不再是由传统神经网络计算得出,而是由逻辑门电路决定。这样一来,模型不仅更具可解释性,计算效率也得到了大幅提升。 复刻康威生命游戏,表现如何? 康威生命游戏诞生于1970年,是最经典的元胞自动机之一,它用极其简单的规则,展现出了丰富的复杂性。谷歌团队用 DiffLogic CA 训练了一套模型,让它在512种不同的3×3网格上学习生命游戏的规则。 这项研究的意义? DiffLogic CA 提供了一种全新的 NCA 结构,使用二进制状态和循环逻辑电路进行计算,并通过可微分逻辑网络训练逻辑门,使计算更加高效和透明。相比于传统 NCA,DiffLogic CA 不仅计算成本更低,还增强了可解释性。 未来的优化方向可能包括: 这一研究表明,可微分逻辑门+NCA的结合,或许能在可编程物质领域打开新的大门,让计算变得更加高效,同时更适用于复杂的模式生成任务。
微软正在加速自家AI技术的布局
微软正在加速自家AI技术的布局,试图在与长期合作伙伴OpenAI的竞争中占据一席之地。据悉,该公司正在研发强大的AI模型,并积极寻找替代方案,以驱动Copilot等产品的运行。 根据《The Information》报道,微软已经打造出与OpenAI的o1和o3-mini类似的AI“推理”模型。然而,OpenAI拒绝向微软提供关于o1运作方式的技术细节,这无疑加剧了双方的紧张关系。此外,彭博社爆料称,微软正在开发一款名为MAI的模型家族,性能可媲美OpenAI的产品,并计划在今年晚些时候通过API对外开放。 与此同时,微软也没有把鸡蛋放在一个篮子里。据悉,该公司正在测试来自xAI、Meta、Anthropic和DeepSeek的AI模型,考虑是否可以用它们替代Copilot中依赖的OpenAI技术。此外,微软为了稳住AI战局,已投入约140亿美元给OpenAI,并重磅挖来了DeepMind和Inflection的联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman),负责整体AI战略布局。
Opera 推出“Browser Operator”AI 代理,浏览器变身智能助手!
Opera 最近发布了一款名为 “Browser Operator” 的本地 AI 代理,它能够直接在浏览器内执行各种任务,比如自动购买商品、填写在线表单,甚至收集网页内容——让用户彻底摆脱繁琐的重复操作。 与传统的 AI 助手不同,Browser Operator 不是一个独立的工具,而是浏览器本身的延伸,直接集成在 Opera 浏览器内运行。更重要的是,它所有的任务处理 完全本地化,不依赖云端服务器,因此用户的敏感数据不会被传输到第三方,隐私安全性大幅提升。 如何运作?让 AI 直接帮你买袜子! Opera 官方演示了一个有趣的应用场景——买袜子。过去,用户需要手动浏览电商网站、挑选商品、填写地址、输入支付信息。而现在,用户只需给 Browser Operator 下达指令,AI 便能自动完成整个购物流程。甚至在填写支付信息等关键步骤时,AI 也会暂停,确保用户确认无误后再继续执行。 核心驱动力 来自 Opera 自研的 AI Composer Engine,这款引擎让 Browser Operator 能够理解用户的自然语言指令,并在浏览器内直接执行相应操作。而且,整个过程 透明可控,用户可以随时介入、更改或撤销 AI 的操作,比如取消订单、调整填写内容等。 比其他 AI 工具更强在哪? 目前,许多 AI 助手依赖截图或视频录制来“观看”网页内容,但 Opera 采用的是 DOM(文档对象模型)和浏览器布局数据,即网页的文本结构,而非屏幕像素。这一技术差异带来了三大优势: 浏览器进化:从工具到智能助手 凭借 Browser Operator,Opera 正在让浏览器从一个单纯的互联网访问工具,升级为能主动 提升生产力的 AI 代理。未来,浏览器或许不再只是一个用来上网的窗口,而是一个能够主动帮助用户处理事务的智能助手。…
QwQ-32B:强化学习的力量正在崛起!
Qwen 团队近日正式推出 QwQ-32B,这款拥有 320 亿参数的 AI 模型,在推理能力上竟然能媲美 DeepSeek-R1——这款庞然大物拥有 6710 亿参数(其中 370 亿被激活)。这一成就充分展示了强化学习(RL)的强大潜力,尤其是在大规模基础模型的智能进化过程中,RL 的作用正在逐步显现。 研究表明,相较于传统的预训练和后训练方法,强化学习的扩展不仅能优化模型性能,还能极大地提升其推理能力。例如,DeepSeek R1 通过冷启动数据和多阶段训练,成功实现了深度思考和复杂推理能力。而 QwQ-32B 也采用类似策略,并在此基础上进一步整合了智能代理(agent)功能,使其能够结合工具、接收环境反馈并进行动态调整。换句话说,这不仅仅是强化学习的胜利,更是迈向通用人工智能(AGI)的重要一步。 性能表现如何? QwQ-32B 在多个基准测试中展现了卓越的数学推理、代码能力和通用问题解决能力,并与 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1 进行了对比。 值得注意的是,QwQ-32B 采用了全新的 RL 训练策略: 如何使用 QwQ-32B? 想要上手 QwQ-32B?好消息是,这款模型已在 Hugging Face 和 ModelScope 上开放权重,使用 Apache 2.0 许可证。此外,用户还可以通过 Qwen Chat 直接访问它。 Hugging Face Transformers 示例代码 Alibaba Cloud DashScope API 示例 如果用户希望通过 API…
OpenAI 可能计划推出一系列专门的 AI “智能代理”(agents)
据《The Information》报道,OpenAI 可能计划推出一系列专门的 AI “智能代理”(agents),其中最贵的一款订阅费高达每月 2 万美元。 报道称,这些 AI 代理将针对不同领域提供定制化服务,比如销售线索筛选与排序、软件开发等。其中,一款专为“高收入知识工作者”打造的代理预计收费 2000 美元/月,而面向软件工程师的版本可能要价 1 万美元/月。至于传说中的“顶配版”——据称能够支持“博士级研究”的 AI 代理,价格则高达 2 万美元/月。 目前,这些 AI 代理的正式发布时间和具体适用客户仍然未知。不过,消息人士透露,OpenAI 投资方软银已经承诺今年在这些 AI 代理产品上砸下 30 亿美元,可见市场需求相当可观。 对 OpenAI 来说,这笔收入或许至关重要。毕竟,去年公司因运营成本和其他开支亏损近 50 亿美元,如今靠 AI 代理产品大赚一笔,或许是填补亏空的关键一步。
OpenAI 旗下的 AI 聊天机器人平台 ChatGPT 现在已经可以直接编辑代码
OpenAI 旗下的 AI 聊天机器人平台 ChatGPT 现在已经可以直接编辑代码了——不过,目前仅限 macOS 版本。 最新的 macOS 版 ChatGPT 应用已经能够直接在 Xcode、VS Code 和 JetBrains 等主流开发工具中进行代码编辑。用户还可以选择开启“自动应用”模式,让 ChatGPT 直接修改代码,无需额外点击确认。 ChatGPT Plus、Pro 和 Team 订阅用户可以在本周四更新 macOS 应用后体验这一新功能,而 OpenAI 表示,Enterprise、Edu 以及免费用户将在下周迎来这一功能的正式上线。 OpenAI 产品团队成员 Alexander Embiricos 在 X(前 Twitter)上发文称,Windows 版 ChatGPT 也将“很快”支持代码编辑功能。 这一新功能建立在 OpenAI 2024 年 11 月推出的“与应用协作”(Work with Apps)能力之上。该功能允许 macOS 版 ChatGPT 读取特定开发环境中的代码,减少开发者手动复制粘贴的需求。而现在,ChatGPT 直接修改代码的能力,让它成为 Cursor、GitHub Copilot…
谷歌联合创始人拉里·佩奇(Larry Page)正在悄悄打造一家名为 Dynatomics 的新公司
据《The Information》报道,谷歌联合创始人拉里·佩奇(Larry Page)正在悄悄打造一家名为 Dynatomics 的新公司,专注于将 AI 技术应用于产品制造领域。 据悉,佩奇正在与一小群工程师合作,研发 AI 技术,让其能够自动生成“高度优化”的物品设计,并由工厂直接生产成品。而这场低调的 AI 研发行动,则由克里斯·安德森(Chris Anderson)负责推进——他曾是佩奇投资的电动飞机初创公司 Kittyhawk 的首席技术官。 当然,佩奇并不是唯一一个盯上 AI+制造业的企业家,只不过他可能是最富有的那位。 比如,Orbital Materials 正在开发一款 AI 平台,致力于发现从电池到二氧化碳捕获单元等各种新材料;PhysicsX 则提供仿真工具,帮助汽车、航空航天和材料科学领域的工程师进行项目测试;此外,Instrumental 也在利用计算机视觉 AI 技术检测工厂生产过程中的异常情况。 显然,AI 在制造业的潜力正在被越来越多的企业家挖掘,而佩奇的 Dynatomics 将如何搅动这片蓝海,值得持续关注。
Magma登场!多模态AI模型,打通数字与物理世界
想象一下,一个AI系统不仅能精准操控软件界面,还能指导机器人抓取物体,执行复杂的现实任务。这种场景曾经只存在于科幻小说里,而如今,微软研究团队带来了Magma——一款跨越数字与物理环境的多模态AI基础模型,让这个愿景距离现实更近了一步。 Magma的核心能力:让AI真正“动起来” Magma采用**基础模型(Foundation Model)**架构,预训练于海量多样化数据,使其在不同任务和环境下具备更强的泛化能力。它不仅能解析视觉和文本信息,还能基于这些信息生成可执行的操作建议,无论是点击软件按钮,还是操控机器人抓取工具。 与以往的任务专用AI不同,Magma具备更广泛的适应能力。例如,它可以帮助智能家居机器人学习整理从未见过的物品,也能指导虚拟助手生成详细的UI导航指引。相比单一任务AI,Magma的泛化能力大幅提升,能够跨越不同领域执行任务,真正成为通用型AI助手。 如何训练AI跨越数字与现实世界?SoM & ToM方法 微软研究团队在训练Magma时,提出了两大创新策略——Set-of-Mark (SoM) 和 Trace-of-Mark (ToM),帮助AI更精准地理解任务要点,并掌握动态交互能力。 ✅ Set-of-Mark (SoM):关键元素标注SoM是一种高层次提示方法,通过标注任务中至关重要的对象或界面元素,帮助AI聚焦关键信息。例如,在网页导航任务中,SoM会标记所有可点击的按钮,而在物理任务中,则会标记需要移动的物体(如桌上的盘子、杯子等)。 ✅ Trace-of-Mark (ToM):动态任务轨迹相比SoM的静态标注,ToM进一步增强了AI的时间维度理解,通过轨迹追踪对象的运动情况。例如,在机器人抓取任务中,ToM可以描绘机械臂如何调整位置、放置物体的动态过程,让Magma更精准地执行动作。 表现如何?Magma挑战各大SOTA模型 在多项任务测试中,Magma展现了惊人的泛化能力和任务适应性:📌 零样本(Zero-shot)智能评估——无需额外微调,Magma就能在多个领域执行完整任务,在机器人操控和UI导航等任务上击败众多专门模型。 📌 少样本(Few-shot)微调——在机器人(Widow-X)和交互式UI任务(Mind2Web)上,Magma在所有测试任务中成功率远超现有模型,证明了SoM和ToM技术的关键作用。 📌 跨环境迁移能力——即便没有特定任务的数据,Magma依然可以媲美甚至超越最先进的多模态AI,如Video-Llama2和ShareGPT4Video。 Magma:AI智能体的未来基石 Magma不仅是一个单一的模型,而是微软AI智能体(Agentic AI)的核心拼图之一。它可以与微软的AutoGen开源库结合,打造具备自主计划和执行能力的AI助手。未来,Magma还将结合**强化学习、测试时搜索(Test-time Search)**等技术,进一步增强推理和探索能力。 目前,Magma已在Azure AI Foundry Labs和HuggingFace上开源,并采用MIT许可,开发者可自由下载并进行探索。微软研究团队邀请所有AI开发者测试和改进这款划时代的多模态AI模型,共同推动AI智能体迈向更高层次的自主智能!
AI概览升级,AI模式全新登场!
AI模式让搜索变得更加轻松,它将Gemini 2.0的强大能力与Google顶级信息系统结合在一起。据悉,这项技术的搜索结果不仅具有示范性,还涉及一些前瞻性功能。 内容探索一直是Google的重要方向,而AI模式正是为了让用户更便捷地获取信息,并快速采取行动。借助这一模型的深度信息检索能力,用户可以更精准地表达需求,无论是细微的差别还是具体的限制条件,都能找到最合适的网页内容,并且支持多种格式呈现。 实验室测试阶段在内部测试和部分受信用户的试用反馈中,AI模式表现出了极高的实用性,尤其是在响应速度、信息质量和内容更新方面广受好评。现在,这项技术正在扩大测试范围,进入Labs的限量试用阶段,用户需要主动申请加入。这种实验性策略旨在通过最热衷尝试新技术的用户反馈,快速优化产品。 AI模式的核心依托Google现有的质量和排名系统,同时采用新的推理方法来提升信息的准确性。理论上,AI模式会尽可能多地提供AI生成的回答,但如果系统对信息的质量和价值没有足够信心,就会改为展示普通的网页搜索结果。毕竟,任何处于早期阶段的AI技术都无法做到完美,例如,虽然Google的目标是让AI搜索结果尽量客观地反映网络上的信息,但某些回答可能会无意间带有倾向性或形成某种个性化表达。 在下一阶段的测试中,Google计划解决这些挑战,并根据用户反馈快速调整用户体验。团队正在开发新的功能,比如增加更多图片和视频内容、更丰富的格式呈现、改进访问网页内容的方式等。 从今天起,Google One AI Premium订阅用户将率先获得试用邀请,官方期待收到更多用户的反馈,更多更新也即将到来!