AI TrendTrackers

微软与Ubiquant的研究团队带来了一款全新的基于规则的强化学习框架——Logic-RL

Posted on March 10, 2025March 10, 2025 by aitrendtrackers@rengongzhineng.io

微软与Ubiquant的研究团队又有新突破！这次他们带来了一款全新的基于规则的强化学习框架——Logic-RL，能够通过训练逻辑谜题，自然习得类似DeepSeek-R1的推理模式，让大模型的逻辑能力更上一层楼。大模型的推理能力，还能怎么提升？近年来，大语言模型（LLM）在后训练阶段取得了巨大进展，比如DeepSeek-R1、Kimi-K1.5和OpenAI-o1，它们的推理能力越来越强。然而，DeepSeek-R1虽然开放了模型权重，但却没有提供训练代码和数据集细节，这让人们对如何在小模型上扩展推理能力、如何构建最佳训练数据结构、以及如何可靠地复现推理方法充满疑问。传统数学数据集（如GSM8K、Omini-MATH）在难度和逻辑深度上不够稳定，导致实验控制变得困难。因此，研究人员开始意识到，需要针对性的数据集，能够控制复杂度，以便更好地研究推理能力的涌现现象。目前，大模型推理能力的提升主要依赖以下技术：这些方法不断推动模型推理能力的进化，而Logic-RL正是基于RL的一项重大突破。 Logic-RL：如何让AI像人一样解逻辑题？微软和Ubiquant团队开发的Logic-RL，是一种基于规则的强化学习（RL）框架，能让模型通过逻辑训练习得类似DeepSeek-R1的推理能力。它采用REINFORCE++算法，并参考了DeepSeek-R1的奖励机制进行后训练。随着训练的深入，模型会自动分配更多计算步骤给推理，让生成的token数量从几百扩展到上千，从而形成更深入的思考过程。实验数据令人惊喜：然而，研究过程中也遇到了一些有趣的挑战。例如，Qwen2.5-Math-7B的格式问题，它在训练过程中总是喜欢输出Python代码块，而不是严格按照格式要求生成答案。此外，研究团队对比测试了Qwen2.5-7B-Base和Qwen2.5-7B-Instruct，结果发现两者在RL训练时的表现几乎一致，包括验证准确率、响应长度增长曲线和奖励曲线。 REINFORCE++ vs PPO vs GRPO：谁才是最优解？实验还对比了三种强化学习算法在推理任务上的表现：此外，该模型在超出分布（Super OOD）泛化能力上的表现也非常亮眼，AIME数据集上提升125%，AMC数据集上提升38%，表明强化学习不仅能提升模型在训练数据上的表现，还能帮助它形成可迁移的推理策略，适应更复杂的问题。这项研究的意义？ Logic-RL证明了基于规则的强化学习框架能够培养复杂推理能力，这对AI的发展至关重要。然而，研究人员也意识到，当前的研究基于相对小规模的逻辑数据集，这可能会限制其在真实数学或编程任务中的适用性。因此，未来的研究方向可能包括：总的来说，Logic-RL为AI推理能力的进化提供了一条新路径，或许未来的LLM不仅能解数学题，还能像人一样推理和思考！

谷歌AI最新发布的可微分逻辑元胞自动机（DiffLogic CA）

Posted on March 10, 2025March 10, 2025 by aitrendtrackers@rengongzhineng.io

谷歌AI又放大招了！最新发布的可微分逻辑元胞自动机（DiffLogic CA），带来了一种全新的神经元胞自动机（NCA）训练方式，让复杂模式的学习和生成更加智能化。几十年来，研究人员一直在试图破解元胞自动机中的“涌现行为”——也就是用简单规则推导出复杂现象。传统的方法是自底向上的，先定义局部规则，然后观察会生成什么样的模式。而谷歌研究团队反其道而行之，提出了一种完全可微分的方法：让系统自己学习需要哪些局部规则，才能生成指定的复杂模式，同时仍然保持元胞自动机的离散特性。这不仅让规则的发现过程变得更加自动化，而且更具可扩展性。在此之前，学界已经尝试使用非微分方法来学习转换规则，也研究过如何让一维元胞自动机变得可微分，从而使用梯度优化来学习规则。如今，DiffLogic CA在这些研究的基础上更进一步，打破了手工设计规则和自动学习计算模型之间的壁垒。 DiffLogic CA 到底是啥？谷歌的研究团队提出了一种新颖的可微分逻辑门方法，成功让元胞自动机“学会”康威生命游戏（Conway’s Game of Life）的规则，并通过学习到的离散动态生成复杂模式。这个方法结合了两大核心技术： DiffLogic CA 的核心思想，就是融合这两种技术，让可学习的局部逻辑计算成为可能，最终推动可编程物质的发展。它是怎么运作的？ NCA的基本思想是，将经典的元胞自动机和深度学习结合，通过可学习的更新规则实现自组织行为。传统方法依赖昂贵的矩阵运算，而NCA则用梯度下降来优化交互方式，同时保持局部性和并行性。它的运行方式如下： DiffLogic CA 在此基础上进行了重大改进，它用逻辑门替换了神经元，使系统可以通过连续松弛来学习离散运算。这意味着，元胞的状态不再是由传统神经网络计算得出，而是由逻辑门电路决定。这样一来，模型不仅更具可解释性，计算效率也得到了大幅提升。复刻康威生命游戏，表现如何？康威生命游戏诞生于1970年，是最经典的元胞自动机之一，它用极其简单的规则，展现出了丰富的复杂性。谷歌团队用 DiffLogic CA 训练了一套模型，让它在512种不同的3×3网格上学习生命游戏的规则。这项研究的意义？ DiffLogic CA 提供了一种全新的 NCA 结构，使用二进制状态和循环逻辑电路进行计算，并通过可微分逻辑网络训练逻辑门，使计算更加高效和透明。相比于传统 NCA，DiffLogic CA 不仅计算成本更低，还增强了可解释性。未来的优化方向可能包括：这一研究表明，可微分逻辑门+NCA的结合，或许能在可编程物质领域打开新的大门，让计算变得更加高效，同时更适用于复杂的模式生成任务。

微软正在加速自家AI技术的布局

Posted on March 10, 2025March 10, 2025 by aitrendtrackers@rengongzhineng.io

微软正在加速自家AI技术的布局，试图在与长期合作伙伴OpenAI的竞争中占据一席之地。据悉，该公司正在研发强大的AI模型，并积极寻找替代方案，以驱动Copilot等产品的运行。根据《The Information》报道，微软已经打造出与OpenAI的o1和o3-mini类似的AI“推理”模型。然而，OpenAI拒绝向微软提供关于o1运作方式的技术细节，这无疑加剧了双方的紧张关系。此外，彭博社爆料称，微软正在开发一款名为MAI的模型家族，性能可媲美OpenAI的产品，并计划在今年晚些时候通过API对外开放。与此同时，微软也没有把鸡蛋放在一个篮子里。据悉，该公司正在测试来自xAI、Meta、Anthropic和DeepSeek的AI模型，考虑是否可以用它们替代Copilot中依赖的OpenAI技术。此外，微软为了稳住AI战局，已投入约140亿美元给OpenAI，并重磅挖来了DeepMind和Inflection的联合创始人穆斯塔法·苏莱曼（Mustafa Suleyman），负责整体AI战略布局。

Opera 推出“Browser Operator”AI 代理，浏览器变身智能助手！

Posted on March 8, 2025March 8, 2025 by aitrendtrackers@rengongzhineng.io

Opera 最近发布了一款名为 “Browser Operator” 的本地 AI 代理，它能够直接在浏览器内执行各种任务，比如自动购买商品、填写在线表单，甚至收集网页内容——让用户彻底摆脱繁琐的重复操作。与传统的 AI 助手不同，Browser Operator 不是一个独立的工具，而是浏览器本身的延伸，直接集成在 Opera 浏览器内运行。更重要的是，它所有的任务处理完全本地化，不依赖云端服务器，因此用户的敏感数据不会被传输到第三方，隐私安全性大幅提升。如何运作？让 AI 直接帮你买袜子！ Opera 官方演示了一个有趣的应用场景——买袜子。过去，用户需要手动浏览电商网站、挑选商品、填写地址、输入支付信息。而现在，用户只需给 Browser Operator 下达指令，AI 便能自动完成整个购物流程。甚至在填写支付信息等关键步骤时，AI 也会暂停，确保用户确认无误后再继续执行。核心驱动力来自 Opera 自研的 AI Composer Engine，这款引擎让 Browser Operator 能够理解用户的自然语言指令，并在浏览器内直接执行相应操作。而且，整个过程透明可控，用户可以随时介入、更改或撤销 AI 的操作，比如取消订单、调整填写内容等。比其他 AI 工具更强在哪？目前，许多 AI 助手依赖截图或视频录制来“观看”网页内容，但 Opera 采用的是 DOM（文档对象模型）和浏览器布局数据，即网页的文本结构，而非屏幕像素。这一技术差异带来了三大优势：浏览器进化：从工具到智能助手凭借 Browser Operator，Opera 正在让浏览器从一个单纯的互联网访问工具，升级为能主动提升生产力的 AI 代理。未来，浏览器或许不再只是一个用来上网的窗口，而是一个能够主动帮助用户处理事务的智能助手。…

QwQ-32B：强化学习的力量正在崛起！

Posted on March 8, 2025March 8, 2025 by aitrendtrackers@rengongzhineng.io

Qwen 团队近日正式推出 QwQ-32B，这款拥有 320 亿参数的 AI 模型，在推理能力上竟然能媲美 DeepSeek-R1——这款庞然大物拥有 6710 亿参数（其中 370 亿被激活）。这一成就充分展示了强化学习（RL）的强大潜力，尤其是在大规模基础模型的智能进化过程中，RL 的作用正在逐步显现。研究表明，相较于传统的预训练和后训练方法，强化学习的扩展不仅能优化模型性能，还能极大地提升其推理能力。例如，DeepSeek R1 通过冷启动数据和多阶段训练，成功实现了深度思考和复杂推理能力。而 QwQ-32B 也采用类似策略，并在此基础上进一步整合了智能代理（agent）功能，使其能够结合工具、接收环境反馈并进行动态调整。换句话说，这不仅仅是强化学习的胜利，更是迈向通用人工智能（AGI）的重要一步。性能表现如何？ QwQ-32B 在多个基准测试中展现了卓越的数学推理、代码能力和通用问题解决能力，并与 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1 进行了对比。值得注意的是，QwQ-32B 采用了全新的 RL 训练策略：如何使用 QwQ-32B？想要上手 QwQ-32B？好消息是，这款模型已在 Hugging Face 和 ModelScope 上开放权重，使用 Apache 2.0 许可证。此外，用户还可以通过 Qwen Chat 直接访问它。 Hugging Face Transformers 示例代码 Alibaba Cloud DashScope API 示例如果用户希望通过 API…

OpenAI 可能计划推出一系列专门的 AI “智能代理”（agents）

Posted on March 8, 2025March 8, 2025 by aitrendtrackers@rengongzhineng.io

据《The Information》报道，OpenAI 可能计划推出一系列专门的 AI “智能代理”（agents），其中最贵的一款订阅费高达每月 2 万美元。报道称，这些 AI 代理将针对不同领域提供定制化服务，比如销售线索筛选与排序、软件开发等。其中，一款专为“高收入知识工作者”打造的代理预计收费 2000 美元/月，而面向软件工程师的版本可能要价 1 万美元/月。至于传说中的“顶配版”——据称能够支持“博士级研究”的 AI 代理，价格则高达 2 万美元/月。目前，这些 AI 代理的正式发布时间和具体适用客户仍然未知。不过，消息人士透露，OpenAI 投资方软银已经承诺今年在这些 AI 代理产品上砸下 30 亿美元，可见市场需求相当可观。对 OpenAI 来说，这笔收入或许至关重要。毕竟，去年公司因运营成本和其他开支亏损近 50 亿美元，如今靠 AI 代理产品大赚一笔，或许是填补亏空的关键一步。

OpenAI 旗下的 AI 聊天机器人平台 ChatGPT 现在已经可以直接编辑代码

Posted on March 7, 2025 by aitrendtrackers@rengongzhineng.io

OpenAI 旗下的 AI 聊天机器人平台 ChatGPT 现在已经可以直接编辑代码了——不过，目前仅限 macOS 版本。最新的 macOS 版 ChatGPT 应用已经能够直接在 Xcode、VS Code 和 JetBrains 等主流开发工具中进行代码编辑。用户还可以选择开启“自动应用”模式，让 ChatGPT 直接修改代码，无需额外点击确认。 ChatGPT Plus、Pro 和 Team 订阅用户可以在本周四更新 macOS 应用后体验这一新功能，而 OpenAI 表示，Enterprise、Edu 以及免费用户将在下周迎来这一功能的正式上线。 OpenAI 产品团队成员 Alexander Embiricos 在 X（前 Twitter）上发文称，Windows 版 ChatGPT 也将“很快”支持代码编辑功能。这一新功能建立在 OpenAI 2024 年 11 月推出的“与应用协作”（Work with Apps）能力之上。该功能允许 macOS 版 ChatGPT 读取特定开发环境中的代码，减少开发者手动复制粘贴的需求。而现在，ChatGPT 直接修改代码的能力，让它成为 Cursor、GitHub Copilot…

谷歌联合创始人拉里·佩奇（Larry Page）正在悄悄打造一家名为 Dynatomics 的新公司

Posted on March 7, 2025 by aitrendtrackers@rengongzhineng.io

据《The Information》报道，谷歌联合创始人拉里·佩奇（Larry Page）正在悄悄打造一家名为 Dynatomics 的新公司，专注于将 AI 技术应用于产品制造领域。据悉，佩奇正在与一小群工程师合作，研发 AI 技术，让其能够自动生成“高度优化”的物品设计，并由工厂直接生产成品。而这场低调的 AI 研发行动，则由克里斯·安德森（Chris Anderson）负责推进——他曾是佩奇投资的电动飞机初创公司 Kittyhawk 的首席技术官。当然，佩奇并不是唯一一个盯上 AI+制造业的企业家，只不过他可能是最富有的那位。比如，Orbital Materials 正在开发一款 AI 平台，致力于发现从电池到二氧化碳捕获单元等各种新材料；PhysicsX 则提供仿真工具，帮助汽车、航空航天和材料科学领域的工程师进行项目测试；此外，Instrumental 也在利用计算机视觉 AI 技术检测工厂生产过程中的异常情况。显然，AI 在制造业的潜力正在被越来越多的企业家挖掘，而佩奇的 Dynatomics 将如何搅动这片蓝海，值得持续关注。

Magma登场！多模态AI模型，打通数字与物理世界

Posted on March 6, 2025March 6, 2025 by aitrendtrackers@rengongzhineng.io

想象一下，一个AI系统不仅能精准操控软件界面，还能指导机器人抓取物体，执行复杂的现实任务。这种场景曾经只存在于科幻小说里，而如今，微软研究团队带来了Magma——一款跨越数字与物理环境的多模态AI基础模型，让这个愿景距离现实更近了一步。 Magma的核心能力：让AI真正“动起来” Magma采用**基础模型（Foundation Model）**架构，预训练于海量多样化数据，使其在不同任务和环境下具备更强的泛化能力。它不仅能解析视觉和文本信息，还能基于这些信息生成可执行的操作建议，无论是点击软件按钮，还是操控机器人抓取工具。与以往的任务专用AI不同，Magma具备更广泛的适应能力。例如，它可以帮助智能家居机器人学习整理从未见过的物品，也能指导虚拟助手生成详细的UI导航指引。相比单一任务AI，Magma的泛化能力大幅提升，能够跨越不同领域执行任务，真正成为通用型AI助手。如何训练AI跨越数字与现实世界？SoM & ToM方法微软研究团队在训练Magma时，提出了两大创新策略——Set-of-Mark (SoM) 和 Trace-of-Mark (ToM)，帮助AI更精准地理解任务要点，并掌握动态交互能力。 ✅ Set-of-Mark (SoM)：关键元素标注SoM是一种高层次提示方法，通过标注任务中至关重要的对象或界面元素，帮助AI聚焦关键信息。例如，在网页导航任务中，SoM会标记所有可点击的按钮，而在物理任务中，则会标记需要移动的物体（如桌上的盘子、杯子等）。 ✅ Trace-of-Mark (ToM)：动态任务轨迹相比SoM的静态标注，ToM进一步增强了AI的时间维度理解，通过轨迹追踪对象的运动情况。例如，在机器人抓取任务中，ToM可以描绘机械臂如何调整位置、放置物体的动态过程，让Magma更精准地执行动作。表现如何？Magma挑战各大SOTA模型在多项任务测试中，Magma展现了惊人的泛化能力和任务适应性：📌 零样本（Zero-shot）智能评估——无需额外微调，Magma就能在多个领域执行完整任务，在机器人操控和UI导航等任务上击败众多专门模型。 📌 少样本（Few-shot）微调——在机器人（Widow-X）和交互式UI任务（Mind2Web）上，Magma在所有测试任务中成功率远超现有模型，证明了SoM和ToM技术的关键作用。 📌 跨环境迁移能力——即便没有特定任务的数据，Magma依然可以媲美甚至超越最先进的多模态AI，如Video-Llama2和ShareGPT4Video。 Magma：AI智能体的未来基石 Magma不仅是一个单一的模型，而是微软AI智能体（Agentic AI）的核心拼图之一。它可以与微软的AutoGen开源库结合，打造具备自主计划和执行能力的AI助手。未来，Magma还将结合**强化学习、测试时搜索（Test-time Search）**等技术，进一步增强推理和探索能力。目前，Magma已在Azure AI Foundry Labs和HuggingFace上开源，并采用MIT许可，开发者可自由下载并进行探索。微软研究团队邀请所有AI开发者测试和改进这款划时代的多模态AI模型，共同推动AI智能体迈向更高层次的自主智能！

AI概览升级，AI模式全新登场！

Posted on March 6, 2025March 6, 2025 by aitrendtrackers@rengongzhineng.io

AI模式让搜索变得更加轻松，它将Gemini 2.0的强大能力与Google顶级信息系统结合在一起。据悉，这项技术的搜索结果不仅具有示范性，还涉及一些前瞻性功能。内容探索一直是Google的重要方向，而AI模式正是为了让用户更便捷地获取信息，并快速采取行动。借助这一模型的深度信息检索能力，用户可以更精准地表达需求，无论是细微的差别还是具体的限制条件，都能找到最合适的网页内容，并且支持多种格式呈现。实验室测试阶段在内部测试和部分受信用户的试用反馈中，AI模式表现出了极高的实用性，尤其是在响应速度、信息质量和内容更新方面广受好评。现在，这项技术正在扩大测试范围，进入Labs的限量试用阶段，用户需要主动申请加入。这种实验性策略旨在通过最热衷尝试新技术的用户反馈，快速优化产品。 AI模式的核心依托Google现有的质量和排名系统，同时采用新的推理方法来提升信息的准确性。理论上，AI模式会尽可能多地提供AI生成的回答，但如果系统对信息的质量和价值没有足够信心，就会改为展示普通的网页搜索结果。毕竟，任何处于早期阶段的AI技术都无法做到完美，例如，虽然Google的目标是让AI搜索结果尽量客观地反映网络上的信息，但某些回答可能会无意间带有倾向性或形成某种个性化表达。在下一阶段的测试中，Google计划解决这些挑战，并根据用户反馈快速调整用户体验。团队正在开发新的功能，比如增加更多图片和视频内容、更丰富的格式呈现、改进访问网页内容的方式等。从今天起，Google One AI Premium订阅用户将率先获得试用邀请，官方期待收到更多用户的反馈，更多更新也即将到来！

Subscribe 订阅