Meta 的超级智能实验室发布首个公开模型 Muse Spark

Meta 宣称其基准测试表现强劲，但也承认在智能体与编程系统方面仍存在“性能差距”。

Meta 于周三宣布推出 Spark，这是 Muse 系列中的首个 AI 模型，公司称其代表了“对我们 AI 工作从底层进行的全面重构”。

Muse Spark 是 Meta 超级智能实验室发布的首个成果。该实验室成立不到一年，其宏大的目标是“为每个人实现个人超级智能的承诺”。这一发布也标志着 Meta 与此前开源 Llama 模型系列的彻底分道扬镳；该系列无论在用户反馈还是独立大语言模型排名中表现都较为平平。尽管 Spark 将是一个专有模型，Meta 创始人兼 CEO 马克·扎克伯格在 Threads 上发文表示，Muse 系列未来“将包括新的开源模型”。

Meta 表示，Muse Spark 将利用来自 Instagram、Facebook 和 Threads 等平台上的内容，类似于 xAI 的 Grok 与 X 平台内容的整合方式。目前，这意味着 Muse Spark 可以链接到与你查询的位置或热门话题相关的公开帖子。例如，未来这一能力将扩展为“引用推荐内容以及人们分享的内容”的新功能，并将“Reels、照片和帖子直接编织进回答中，同时标注内容创作者来源”。

思考与压缩

Meta 表示，Muse Spark 的“深度思考”（Contemplation）模式“在相当延迟下实现更优性能”。

在一篇随 Spark 发布的技术性博客中，Meta 列出了如今常见的一系列 AI 基准测试结果，其中 Muse Spark 在标准思考模式下的表现与 OpenAI、Anthropic、Google 和 xAI 的竞争模型相当甚至更优。但该博客也略显谨慎地承认，“我们仍在持续投入那些当前存在性能差距的领域，例如长周期智能体系统以及编程工作流。”

在同一篇文章中，Meta 还重点介绍了“深度思考”模式，并表示该功能将“逐步推出”。该模式可以“调度多个并行推理的智能体”。通过最多 16 个智能体同时协同思考，Meta 称该模式“在相似延迟下实现更优性能”。这种“更优性能”包括在 Humanity’s Last Exam（借助外部工具）中达到 58.4 的成绩新高。

一张 Meta 图表展示了额外训练如何在提升准确性的同时实现 token 使用的“压缩”。

此外，针对此前 Llama 模型未充分利用强化学习而受到的批评，Meta 表示 Muse Spark 在预训练之后通过额外的强化学习步骤展现出“平滑且可预测的提升”，在“不牺牲推理多样性”的前提下提升了模型的可靠性。该强化学习系统还引入了“思考时间惩罚”，Meta 称其在“最大化正确性”与优化 token 使用数量之间取得平衡。在 AIME 2025 基准测试中，Meta 表示观察到一种“相变”现象：模型开始将同样准确的推理压缩为“显著更少的 token”。在完成压缩之后，后续训练模型又逐步增加 token 使用量，以在总体时间更短的情况下实现更高的准确率，相比此前未压缩的版本表现更优。

Muse Spark 的发布还伴随着 Meta 高级 AI 扩展框架的更新，公司称该框架如今涵盖更广泛的潜在 AI 风险。Meta 表示，该模型“在我们测量的所有前沿风险类别中都处于安全范围内”，但更多细节将会在即将发布的《安全与准备报告》中披露。

目前，Muse Spark 已在 Meta AI 应用和 meta.ai 网站上线，同时也通过私有预览 API 向“部分合作伙伴”开放。Meta 表示，该模型将在未来数周内登陆 WhatsApp、Instagram、Facebook、Messenger 以及 AI 眼镜设备。

Subscribe 订阅