Google DeepMind 再次掀起 AI 界的狂潮,正式推出 Gemma 3 ——一款轻量级但性能炸裂的开源 AI 模型。这款模型不仅沿袭了 Gemini 2.0 的前沿技术,还专为 单 GPU/TPU 设备 设计,无论是手机、笔记本,还是工作站,都能流畅运行。 过去一年,Gemma 生态(Gemmaverse)已经收获了 超 1 亿次下载,衍生出 6 万多个变体,成为开源 AI 领域的顶流。如今,Gemma 3 进一步升级,带来了 1B、4B、12B 和 27B 四种规格,开发者可以根据硬件和性能需求自由选择。 Gemma 3 新功能抢先看 🔥 全球最强单加速器模型:在 LMArena 排行榜的人类偏好测试中,Gemma 3 完胜 Llama-405B、DeepSeek-V3 和 o3-mini,成为同规格 AI 领域的佼佼者。 🌍 140 种语言支持:开箱即用支持 35+ 语言,预训练支持 140+ 语言,助力全球化 AI 应用。…
OpenAI 最新发布 Responses API 和开源 Agents SDK,开发者可自建 Deep Research 和 Operator 级 AI 代理
OpenAI 正在推出一套全新的 API 和工具,帮助开发者和企业更高效地构建 AI 代理。这些技术正是支撑其自家 AI 代理 Deep Research 和 Operator 的核心——前者能够自主搜索互联网,生成结构清晰、引文完整的研究报告,而后者则能根据用户文本指令自主操作浏览器,比如查找体育赛事门票或预订餐厅。 现在,开发者终于能直接使用这些强大 AI 代理的底层技术,打造自己的竞品,或是针对特定领域和受众定制更加专业的 AI 代理。 OpenAI 的 AI 代理进化史:从 Deep Research 到 Responses API OpenAI 近期在推理、多模态处理和安全机制上的突破,为 AI 代理的发展奠定了基础,尤其是其“o”系列推理模型(o1 和 o3)。 “推理模型对 AI 代理的能力至关重要,”OpenAI 平台产品负责人 Olivier Godement 说道。“过去,AI 代理最大的问题是无法处理复杂的长期任务,比如规划。” 然而,尽管 AI 代理的潜力巨大,开发者一直缺乏易于部署到生产环境的工具,直到现在。 让 AI 代理真正“懂事”:Responses API 和开源 Agents SDK 为了解决这些问题,OpenAI 推出了几款全新产品:Responses API、内置的网页搜索和文件搜索工具、计算机使用工具,以及开源的 Agents…
DeepSeek凭什么不拿VC的钱?这三个原因揭秘!
DeepSeek,这家正在颠覆AI行业的中国初创公司,至今仍未接受外部投资。在硅谷AI创业公司频繁宣布融资、资本竞逐AI模型的背景下,DeepSeek创始人梁文峰却稳坐钓鱼台,对蜂拥而至的投资人一概不理。**《华尔街日报》(WSJ)**近日揭秘了梁不愿引入外部资金的三大关键原因。 1. 梁文峰不想失去控制权 一般来说,创业公司需要外部资本支持,因此难免会受投资人影响。然而,DeepSeek是个特例。 早在2023年,梁在接受中国媒体采访时就曾抱怨VC们过于关注AI的快速变现,而非基础研究。因此,即使大量投资机构希望进入,梁始终不愿放权。 2. DeepSeek目前根本不缺钱 相比其他从零开始的AI初创公司,DeepSeek的资金来源并不依赖外部投资,而是靠High-Flyer基金的盈利输血。 3. VC投资可能加剧信任与隐私担忧 DeepSeek的中国背景让其在国际市场面临监管压力,而外部投资可能让情况更加复杂。 但DeepSeek不会永远拒绝投资 尽管梁目前不急于融资,但这并不意味着DeepSeek永远不会引入外部资本。 未来谁会投资DeepSeek? 虽然DeepSeek现在还在“谢绝VC”,但大厂们已经开始盯上它: 结论:DeepSeek还能独立多久? 梁文峰目前依靠High-Flyer的资金维持DeepSeek的独立性,同时避免VC干涉。但随着AI计算需求激增、盈利压力加大、基金表现下滑,DeepSeek终究可能不得不开放融资大门。 最终的问题是:当DeepSeek决定融资时,它会选择谁? 是腾讯、阿里等中国科技巨头,还是国际资本?这不仅关乎公司发展方向,也会影响其在全球市场的战略定位。
CoreWeave:从“微软专供”到OpenAI的座上宾
OpenAI再下一城!据路透社报道,这家AI巨头已与GPU云计算公司CoreWeave达成一项5年期、119亿美元的天价合作协议。这不仅是OpenAI在计算资源上的一大步,更是在与微软的“暧昧竞争”中布下的一步高手级棋局。 CoreWeave:从“微软专供”到OpenAI的座上宾 本次协议的亮点之一,是OpenAI直接拿下CoreWeave 3.5亿美元的股权,而且这部分投资与CoreWeave即将进行的IPO完全独立。 值得一提的是,CoreWeave的最大客户原本是微软。在2024年,微软贡献了CoreWeave62%的收入,使其年营收飙升至19亿美元(2023年仅为2.29亿美元,一年暴增近8倍)。如今,OpenAI正式入局,CoreWeave不仅新增了一位超大客户,还有效降低了单一客户依赖带来的IPO投资风险。 CoreWeave拥有Nvidia 6%股权支持,其AI云业务遍布32个数据中心,截至2024年底运行着超过25万张Nvidia GPU,包括最新的Blackwell系列。可以说,这家公司掌控着AI算力的命脉,而OpenAI选择下注,显然是为了确保未来不再因算力短缺而受制于人。 OpenAI & 微软:友谊小船说翻就翻? 这笔交易的另一个看点,是它与微软和OpenAI之间日益紧张的关系息息相关。 微软作为OpenAI的大金主,已经投入了140亿美元,并有权分享OpenAI的一部分收入。然而,随着OpenAI的崛起,双方的竞争关系日益显现。OpenAI不仅争夺企业级客户,还计划推出高端AI代理,与微软展开直接竞争。 回顾过去几个月,微软已经开始去OpenAI化: 这场AI军备竞赛已经打响,CoreWeave的加入,无疑让OpenAI多了一张强力王牌。 CoreWeave:从挖矿到IPO,华丽转身 CoreWeave的故事本身就足够戏剧性。这家公司最早是加密货币挖矿公司,由前对冲基金从业者创办。如今,它已完成华丽转型,成为AI时代最炙手可热的云计算玩家。 如果一切顺利,这场从GPU挖矿到AI淘金的狂欢,将让CoreWeave的创始人们继续在资本市场“印钞”。 未来走向:OpenAI vs 微软,全面开战? 从这笔交易来看,OpenAI已经不再满足于微软的资源,而是直接投资自己的GPU云计算提供商,彻底掌握算力命脉。未来,OpenAI可能会: 至于微软,它也不会坐以待毙——自主AI模型、收购人才、拓展云计算合作,多线并行,全面应对OpenAI的独立化进程。 这不仅是AI巨头们的较量,更是一场关于AI算力、数据、市场份额的终极博弈。CoreWeave的这步棋,可能只是开局,但AI战场上的真正较量,才刚刚开始。
伦敦国王学院(King’s College London)和艾伦图灵研究所(The Alan Turing Institute)的研究团队推出了一种全新的自蒸馏框架——CODI
大语言模型(LLM)的推理能力再迎重大突破!来自伦敦国王学院(King’s College London)和艾伦图灵研究所(The Alan Turing Institute)的研究团队推出了一种全新的自蒸馏框架——CODI(Continuous Chain-of-Thought via Self-Distillation),可以让LLM在不显式生成推理步骤的情况下,依然具备强大的逻辑推理能力。 大模型推理的难题:显式 vs. 隐式 CoT Chain-of-Thought(CoT)提示工程已经被证明是提升LLM逻辑推理能力的有效方法,它能让模型按步骤拆解问题,进行层层推理。然而,CoT主要依赖自然语言来表达推理过程,而研究表明,人类的数学推理其实并不完全依赖语言,这意味着可能存在更高效的推理方式。 目前,LLM在推理时主要面临以下挑战: 一些方法(如Coconut)尝试用课程学习(Curriculum Learning)来逐步引导模型内化推理步骤,但仍然存在误差传播和遗忘问题,导致效果不理想。因此,如何在保证推理能力的同时,减少计算开销,成为了研究的关键。 CODI:用自蒸馏让AI“内化”推理过程 为了解决这个问题,研究团队提出了CODI框架,它的核心思想是: CODI的关键机制: 相比于传统方法,CODI无需多阶段训练,通过单步蒸馏就能让模型获得推理能力,避免了课程学习方法中的信息遗失和遗忘问题。 实验结果:推理更强,速度更快 研究团队在数学推理任务上测试了CODI,结果令人惊喜: 此外,CODI还能在跨领域任务(如SVAMP和MultiArith数据集)上取得更好的泛化能力,说明它不仅能在数学推理中生效,还能扩展到更广泛的逻辑推理任务。 未来展望:CODI如何改变AI推理? CODI的出现,标志着隐式CoT推理终于追上了显式CoT,同时也让推理更加高效。相比传统方法,它的优势在于: 未来,CODI可能会被应用到更复杂的多模态推理任务,比如: 总结CODI通过自蒸馏+隐式推理,成功让大模型推理速度更快、计算更高效,并首次让隐式CoT达到显式CoT的推理能力。这一突破,不仅让LLM在数学推理任务上表现更优,也为未来的AI推理技术提供了新的方向。未来,CODI有望在更复杂的推理场景中发挥巨大作用,让AI真正迈向高效、精准、可扩展的推理时代!
微软与Ubiquant的研究团队带来了一款全新的基于规则的强化学习框架——Logic-RL
微软与Ubiquant的研究团队又有新突破!这次他们带来了一款全新的基于规则的强化学习框架——Logic-RL,能够通过训练逻辑谜题,自然习得类似DeepSeek-R1的推理模式,让大模型的逻辑能力更上一层楼。 大模型的推理能力,还能怎么提升? 近年来,大语言模型(LLM)在后训练阶段取得了巨大进展,比如DeepSeek-R1、Kimi-K1.5和OpenAI-o1,它们的推理能力越来越强。然而,DeepSeek-R1虽然开放了模型权重,但却没有提供训练代码和数据集细节,这让人们对如何在小模型上扩展推理能力、如何构建最佳训练数据结构、以及如何可靠地复现推理方法充满疑问。 传统数学数据集(如GSM8K、Omini-MATH)在难度和逻辑深度上不够稳定,导致实验控制变得困难。因此,研究人员开始意识到,需要针对性的数据集,能够控制复杂度,以便更好地研究推理能力的涌现现象。 目前,大模型推理能力的提升主要依赖以下技术: 这些方法不断推动模型推理能力的进化,而Logic-RL正是基于RL的一项重大突破。 Logic-RL:如何让AI像人一样解逻辑题? 微软和Ubiquant团队开发的Logic-RL,是一种基于规则的强化学习(RL)框架,能让模型通过逻辑训练习得类似DeepSeek-R1的推理能力。 它采用REINFORCE++算法,并参考了DeepSeek-R1的奖励机制进行后训练。随着训练的深入,模型会自动分配更多计算步骤给推理,让生成的token数量从几百扩展到上千,从而形成更深入的思考过程。 实验数据令人惊喜: 然而,研究过程中也遇到了一些有趣的挑战。例如,Qwen2.5-Math-7B的格式问题,它在训练过程中总是喜欢输出Python代码块,而不是严格按照格式要求生成答案。此外,研究团队对比测试了Qwen2.5-7B-Base和Qwen2.5-7B-Instruct,结果发现两者在RL训练时的表现几乎一致,包括验证准确率、响应长度增长曲线和奖励曲线。 REINFORCE++ vs PPO vs GRPO:谁才是最优解? 实验还对比了三种强化学习算法在推理任务上的表现: 此外,该模型在超出分布(Super OOD)泛化能力上的表现也非常亮眼,AIME数据集上提升125%,AMC数据集上提升38%,表明强化学习不仅能提升模型在训练数据上的表现,还能帮助它形成可迁移的推理策略,适应更复杂的问题。 这项研究的意义? Logic-RL证明了基于规则的强化学习框架能够培养复杂推理能力,这对AI的发展至关重要。然而,研究人员也意识到,当前的研究基于相对小规模的逻辑数据集,这可能会限制其在真实数学或编程任务中的适用性。因此,未来的研究方向可能包括: 总的来说,Logic-RL为AI推理能力的进化提供了一条新路径,或许未来的LLM不仅能解数学题,还能像人一样推理和思考!
谷歌AI最新发布的可微分逻辑元胞自动机(DiffLogic CA)
谷歌AI又放大招了!最新发布的可微分逻辑元胞自动机(DiffLogic CA),带来了一种全新的神经元胞自动机(NCA)训练方式,让复杂模式的学习和生成更加智能化。 几十年来,研究人员一直在试图破解元胞自动机中的“涌现行为”——也就是用简单规则推导出复杂现象。传统的方法是自底向上的,先定义局部规则,然后观察会生成什么样的模式。而谷歌研究团队反其道而行之,提出了一种完全可微分的方法:让系统自己学习需要哪些局部规则,才能生成指定的复杂模式,同时仍然保持元胞自动机的离散特性。这不仅让规则的发现过程变得更加自动化,而且更具可扩展性。 在此之前,学界已经尝试使用非微分方法来学习转换规则,也研究过如何让一维元胞自动机变得可微分,从而使用梯度优化来学习规则。如今,DiffLogic CA在这些研究的基础上更进一步,打破了手工设计规则和自动学习计算模型之间的壁垒。 DiffLogic CA 到底是啥? 谷歌的研究团队提出了一种新颖的可微分逻辑门方法,成功让元胞自动机“学会”康威生命游戏(Conway’s Game of Life)的规则,并通过学习到的离散动态生成复杂模式。这个方法结合了两大核心技术: DiffLogic CA 的核心思想,就是融合这两种技术,让可学习的局部逻辑计算成为可能,最终推动可编程物质的发展。 它是怎么运作的? NCA的基本思想是,将经典的元胞自动机和深度学习结合,通过可学习的更新规则实现自组织行为。传统方法依赖昂贵的矩阵运算,而NCA则用梯度下降来优化交互方式,同时保持局部性和并行性。它的运行方式如下: DiffLogic CA 在此基础上进行了重大改进,它用逻辑门替换了神经元,使系统可以通过连续松弛来学习离散运算。这意味着,元胞的状态不再是由传统神经网络计算得出,而是由逻辑门电路决定。这样一来,模型不仅更具可解释性,计算效率也得到了大幅提升。 复刻康威生命游戏,表现如何? 康威生命游戏诞生于1970年,是最经典的元胞自动机之一,它用极其简单的规则,展现出了丰富的复杂性。谷歌团队用 DiffLogic CA 训练了一套模型,让它在512种不同的3×3网格上学习生命游戏的规则。 这项研究的意义? DiffLogic CA 提供了一种全新的 NCA 结构,使用二进制状态和循环逻辑电路进行计算,并通过可微分逻辑网络训练逻辑门,使计算更加高效和透明。相比于传统 NCA,DiffLogic CA 不仅计算成本更低,还增强了可解释性。 未来的优化方向可能包括: 这一研究表明,可微分逻辑门+NCA的结合,或许能在可编程物质领域打开新的大门,让计算变得更加高效,同时更适用于复杂的模式生成任务。
微软正在加速自家AI技术的布局
微软正在加速自家AI技术的布局,试图在与长期合作伙伴OpenAI的竞争中占据一席之地。据悉,该公司正在研发强大的AI模型,并积极寻找替代方案,以驱动Copilot等产品的运行。 根据《The Information》报道,微软已经打造出与OpenAI的o1和o3-mini类似的AI“推理”模型。然而,OpenAI拒绝向微软提供关于o1运作方式的技术细节,这无疑加剧了双方的紧张关系。此外,彭博社爆料称,微软正在开发一款名为MAI的模型家族,性能可媲美OpenAI的产品,并计划在今年晚些时候通过API对外开放。 与此同时,微软也没有把鸡蛋放在一个篮子里。据悉,该公司正在测试来自xAI、Meta、Anthropic和DeepSeek的AI模型,考虑是否可以用它们替代Copilot中依赖的OpenAI技术。此外,微软为了稳住AI战局,已投入约140亿美元给OpenAI,并重磅挖来了DeepMind和Inflection的联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman),负责整体AI战略布局。
Opera 推出“Browser Operator”AI 代理,浏览器变身智能助手!
Opera 最近发布了一款名为 “Browser Operator” 的本地 AI 代理,它能够直接在浏览器内执行各种任务,比如自动购买商品、填写在线表单,甚至收集网页内容——让用户彻底摆脱繁琐的重复操作。 与传统的 AI 助手不同,Browser Operator 不是一个独立的工具,而是浏览器本身的延伸,直接集成在 Opera 浏览器内运行。更重要的是,它所有的任务处理 完全本地化,不依赖云端服务器,因此用户的敏感数据不会被传输到第三方,隐私安全性大幅提升。 如何运作?让 AI 直接帮你买袜子! Opera 官方演示了一个有趣的应用场景——买袜子。过去,用户需要手动浏览电商网站、挑选商品、填写地址、输入支付信息。而现在,用户只需给 Browser Operator 下达指令,AI 便能自动完成整个购物流程。甚至在填写支付信息等关键步骤时,AI 也会暂停,确保用户确认无误后再继续执行。 核心驱动力 来自 Opera 自研的 AI Composer Engine,这款引擎让 Browser Operator 能够理解用户的自然语言指令,并在浏览器内直接执行相应操作。而且,整个过程 透明可控,用户可以随时介入、更改或撤销 AI 的操作,比如取消订单、调整填写内容等。 比其他 AI 工具更强在哪? 目前,许多 AI 助手依赖截图或视频录制来“观看”网页内容,但 Opera 采用的是 DOM(文档对象模型)和浏览器布局数据,即网页的文本结构,而非屏幕像素。这一技术差异带来了三大优势: 浏览器进化:从工具到智能助手 凭借 Browser Operator,Opera 正在让浏览器从一个单纯的互联网访问工具,升级为能主动 提升生产力的 AI 代理。未来,浏览器或许不再只是一个用来上网的窗口,而是一个能够主动帮助用户处理事务的智能助手。…
QwQ-32B:强化学习的力量正在崛起!
Qwen 团队近日正式推出 QwQ-32B,这款拥有 320 亿参数的 AI 模型,在推理能力上竟然能媲美 DeepSeek-R1——这款庞然大物拥有 6710 亿参数(其中 370 亿被激活)。这一成就充分展示了强化学习(RL)的强大潜力,尤其是在大规模基础模型的智能进化过程中,RL 的作用正在逐步显现。 研究表明,相较于传统的预训练和后训练方法,强化学习的扩展不仅能优化模型性能,还能极大地提升其推理能力。例如,DeepSeek R1 通过冷启动数据和多阶段训练,成功实现了深度思考和复杂推理能力。而 QwQ-32B 也采用类似策略,并在此基础上进一步整合了智能代理(agent)功能,使其能够结合工具、接收环境反馈并进行动态调整。换句话说,这不仅仅是强化学习的胜利,更是迈向通用人工智能(AGI)的重要一步。 性能表现如何? QwQ-32B 在多个基准测试中展现了卓越的数学推理、代码能力和通用问题解决能力,并与 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1 进行了对比。 值得注意的是,QwQ-32B 采用了全新的 RL 训练策略: 如何使用 QwQ-32B? 想要上手 QwQ-32B?好消息是,这款模型已在 Hugging Face 和 ModelScope 上开放权重,使用 Apache 2.0 许可证。此外,用户还可以通过 Qwen Chat 直接访问它。 Hugging Face Transformers 示例代码 Alibaba Cloud DashScope API 示例 如果用户希望通过 API…