Meta 宣称其基准测试表现强劲,但也承认在智能体与编程系统方面仍存在“性能差距”。
Meta 于周三宣布推出 Spark,这是 Muse 系列中的首个 AI 模型,公司称其代表了“对我们 AI 工作从底层进行的全面重构”。
Muse Spark 是 Meta 超级智能实验室发布的首个成果。该实验室成立不到一年,其宏大的目标是“为每个人实现个人超级智能的承诺”。这一发布也标志着 Meta 与此前开源 Llama 模型系列的彻底分道扬镳;该系列无论在用户反馈还是独立大语言模型排名中表现都较为平平。尽管 Spark 将是一个专有模型,Meta 创始人兼 CEO 马克·扎克伯格在 Threads 上发文表示,Muse 系列未来“将包括新的开源模型”。
Meta 表示,Muse Spark 将利用来自 Instagram、Facebook 和 Threads 等平台上的内容,类似于 xAI 的 Grok 与 X 平台内容的整合方式。目前,这意味着 Muse Spark 可以链接到与你查询的位置或热门话题相关的公开帖子。例如,未来这一能力将扩展为“引用推荐内容以及人们分享的内容”的新功能,并将“Reels、照片和帖子直接编织进回答中,同时标注内容创作者来源”。
思考与压缩
Meta 表示,Muse Spark 的“深度思考”(Contemplation)模式“在相当延迟下实现更优性能”。
在一篇随 Spark 发布的技术性博客中,Meta 列出了如今常见的一系列 AI 基准测试结果,其中 Muse Spark 在标准思考模式下的表现与 OpenAI、Anthropic、Google 和 xAI 的竞争模型相当甚至更优。但该博客也略显谨慎地承认,“我们仍在持续投入那些当前存在性能差距的领域,例如长周期智能体系统以及编程工作流。”
在同一篇文章中,Meta 还重点介绍了“深度思考”模式,并表示该功能将“逐步推出”。该模式可以“调度多个并行推理的智能体”。通过最多 16 个智能体同时协同思考,Meta 称该模式“在相似延迟下实现更优性能”。这种“更优性能”包括在 Humanity’s Last Exam(借助外部工具)中达到 58.4 的成绩新高。
一张 Meta 图表展示了额外训练如何在提升准确性的同时实现 token 使用的“压缩”。
此外,针对此前 Llama 模型未充分利用强化学习而受到的批评,Meta 表示 Muse Spark 在预训练之后通过额外的强化学习步骤展现出“平滑且可预测的提升”,在“不牺牲推理多样性”的前提下提升了模型的可靠性。该强化学习系统还引入了“思考时间惩罚”,Meta 称其在“最大化正确性”与优化 token 使用数量之间取得平衡。在 AIME 2025 基准测试中,Meta 表示观察到一种“相变”现象:模型开始将同样准确的推理压缩为“显著更少的 token”。在完成压缩之后,后续训练模型又逐步增加 token 使用量,以在总体时间更短的情况下实现更高的准确率,相比此前未压缩的版本表现更优。
Muse Spark 的发布还伴随着 Meta 高级 AI 扩展框架的更新,公司称该框架如今涵盖更广泛的潜在 AI 风险。Meta 表示,该模型“在我们测量的所有前沿风险类别中都处于安全范围内”,但更多细节将会在即将发布的《安全与准备报告》中披露。
目前,Muse Spark 已在 Meta AI 应用和 meta.ai 网站上线,同时也通过私有预览 API 向“部分合作伙伴”开放。Meta 表示,该模型将在未来数周内登陆 WhatsApp、Instagram、Facebook、Messenger 以及 AI 眼镜设备。